nvidia相关内容
我正在尝试使用自定义容器在Google AI平台上开展培训工作.当我想使用GPU进行训练时,我用于容器的基本图像是: FROM NVIDIA/CUDA:11.1.1-cudnn8-runtime-ubuntu18.04 有了这个图像(在其顶部安装了tensorflow 2.4.1),我认为我可以在AI平台上使用GPU,但事实并非如此.训练开始时,日志显示如下: W tensorflow
..
在CUDA中,流0与其他流有何关系?流0(默认流)是否在上下文中与其他流并发执行? 考虑以下示例: cudaMemcpy(Dst,Src,sizeof(float)* datasize,cudaMemcpyHostToDevice);//流0;cudaStream_t stream1;/...创建stream1 .../somekernel块,线程,0,stream1>(Dst);//流
..
我想使用Numba或类似的Python CUDA来访问各种NVidia GPU规格.诸如可用设备内存,二级缓存大小,内存时钟频率等信息. 通过阅读 TOTAL_CONSTANT_MEMORY , MAX_SHARED_MEMORY_PER_BLOCK , MEMORY_CLOCK_RATE 和 MAX_THREADS_PER_MULTI_PROCESSOR . 如何在Python中查看
..
我是GPU世界的新手,刚刚安装CUDA来编写一些程序.我玩过推力库,但发现将数据上传到GPU时它是如此之慢.在我不错的台式机上,主机到设备部分的传输速度仅为35MB/s.怎么会这样? 环境:Visual Studio 2012,CUDA 5.0,GTX760,Intel-i7,Windows 7 x64 GPU带宽测试: 下载速度:不到1秒,与标称值相比非常有意义11GB/s.
..
允许nvidia-smi提取硬件级别详细信息的内部操作是什么?即使在GPU设备上已经运行了某些进程并获得了利用率详细信息,进程的名称和ID等,该工具仍会执行.是否可以在用户级别开发此类工具?NVML有什么关系? 解决方案 Nvidia-smi是
..
我是CUDA的新手,我无法理解循环展开.我已经编写了一段代码来了解该技术 __ global__ void kernel(float * b,int size){int tid = blockDim.x * blockIdx.x + threadIdx.x;#pragma展开for(int i = 0; i
..
默认情况下,内核将使用设备的所有可用SM(如果有足够的块).但是,现在我有2个具有1个计算强度和1个内存强度的流,并且我想分别限制2个流使用的最大SM(设置最大SM后,一个流中的内核将使用最大SM,例如20SM用于计算密集型,而4SM用于存储密集型),是否可以这样做?(如果可能,我应该使用哪个API) 解决方案 简而言之,没有办法做您想像的事情. CUDA执行模型没有提供这种粒度,这
..
我目前正在尝试在最新的CUDA工具包(版本11.1)上编译darknet.我有一个能够运行CUDA版本5(即GeForce 940M)的GPU.但是,在使用最新的cuda工具包重建Darknet时,它表示 nvcc致命:不支持的GPU架构'compute_30' compute_30适用于版本3,当我的gpu可以运行版本5时它怎么会失败我的代码是否有可能检测到了我的英特尔图形卡,而不是
..
我想知道为什么它们具有相同的内存地址,如果我没记错的话,每个线程都以这种方式拥有自己的创建变量副本: __ global__无效Matrix_Multiplication_Shared(const int * const Matrix_A,const int * const Matrix_B,int * const Matrix_C){const int sum_value = threadI
..
我的开发工作站当前具有NVIDIA Quadro K2200和K620.两者都具有CUDA计算功能5.0.但是,最终的生产系统使用的是Tesla K80,后者的CUDA计算能力为3.7. 是否可以在我的Quadro GPU上安装和开发用于计算能力3.7的CUDA程序,然后将它们移至K80,而无需进行重大更改? 解决方案 是的,有可能.请确保不要在代码中使用任何计算功能 5.0或以上的
..
我有一个包含两个元素的结构的数组,将其发送到全局内存中的CUDA,然后从全局内存中读取值. 当我阅读一些书籍和帖子时,因为我只是从结构中读取值,所以我认为如果可以将数组存储在Texture内存中,我会很有趣.我在内核外部使用了以下代码: 纹理textureNode; 和main()中的以下行
..
我试图找到一种无需安装图形卡即可执行OpenCL内核的脱机编译的方法.我已经安装了SDK. 在没有为NVIDIA或AMD两者中的任何一个安装图形卡的情况下,任何人都有编译OpenCL内核的经验吗? 我曾在AMD论坛上问过类似的问题(http://devgurus.amd.com/message/1284379).NVIDIA论坛已经很长时间了,因此无法从那里获得任何帮助. 谢谢
..
我想在Visual Studio 2017中的NVIDIA OpenCL中编写应用程序,但不知道如何为此目的创建项目. 我有NVIDIA(GeForce 940M)和Intel(HD Graphics 5500)的GPU,并且已经设法为OpenCL打开和运行Intel示例程序,但是它们有将近一千行代码,所以我决定尝试NVIDIA OpenCL,但没有不知道如何.在一些论坛上,他们说我应该下载
..
首先,让我指出,我已经完全意识到我的问题已经被提出:阻止减少CUDA 但是,正如我希望明确指出的那样,我的问题是对此的后续行动,我有特殊的需求,使得该OP认为该解决方案不合适. 所以,让我解释一下.在我当前的代码中,我在while循环的每次迭代中运行一个Cuda内核,以对数组的值进行一些计算.例如,将其想象如下: int max_iterations = 1000;int迭代= 0;wh
..
即使重新启动机器后,python3进程(系统范围的解释程序)也会使用超过95%的GPU内存. 请注意,即使没有正在运行的训练脚本,内存消耗也会保持不变,而且我从未在系统环境中使用keras/tensorflow,仅在venv或docker容器中使用过. 已更新: 最后一个活动是使用以下配置执行NN测试脚本: tensorflow==1.14.0 Keras==2.0.3 tf.a
..
我开发了一个用作单独Web应用程序的通信服务的应用程序.我有0个问题在“泊坞窗化" Web应用程序,但事实证明该服务是一场噩梦.它基于JavaFX,并且可以由用户在配置文件中设置一个属性,该属性使得该属性不会初始化任何窗口,菜单,容器等.这种“无头"模式(不确定是否真正无头...)有效地将服务应用程序变成了后台服务.首先,我还要说这个应用程序在Windows 10机器上运行时绝对完美,并且我已经将
..
当我要在centos 6.4上制作nvEncodeApp NVENC SDK示例时,出现此错误: /usr/bin/ld: cannot find -lnvidia-encode 当我选中Make file时,此库的路径在这里: -L/usr/lib64 -lnvidia-encode -ldl 我检查了/usr/lib64,但是那里没有任何libnvidia编码: 该库
..
我成功制作了nvEncodeApp,但是运行它时,我的输出是这样 ./nvEncoder -infile=HeavyHandIdiot.3sec.yuv -outfile=outh.264 -width=1080 -height=1080 > NVEncode configuration parameters for Encoder[0] > GPU Device ID
..
例如,运行nvidia-smi命令将显示: Memmory-Usage和GPU Memory Usage有什么区别? 解决方案 Memory-Usage表示: used memory/total memory 已用内存是指GPU正在使用的内存量.如果没有人使用总内存,则总内存就是可用内存. GPU Memory Usage只是按流程将其分解. 该输出显然有一个进
..
我一直在尝试在装有GPU的计算机上运行TensorFlow培训,但是,每当尝试这样做时,我都会收到某种错误,似乎是由于某种原因而无法使用GPU(通常是内存)问题,或cuda问题或cudnn等).但是,由于TensorFlow会自动执行的操作是在无法使用GPU的情况下仅在CPU中运行,因此很难告诉我它是否确实能够利用GPU.因此,除非使用GPU,否则我想让脚本只是失败/停止.我该怎么办? 为了
..