nvidia 第4页 - IT屋-程序员软件开发技术分享社区

如何测量 NVIDIA CUDA 中的内核时间?

我想测量GPU的时间内核，如何在NVIDIA CUDA中测量它?例如 __global__ void kernelSample(){这里有一些代码获取开始时间这里有一些代码获取停止时间这里有一些代码} 解决方案试试这个，它以毫秒为单位测量 2 个事件之间的时间. cudaEvent_t 开始，停止；浮动经过时间；cudaEventCreate(&start);cudaEventReco ..

发布时间：2022-01-10 15:16:18 cuda gpu gpgpu nvidia 其他开发

CUDA 内存是如何管理的?

当我运行仅分配少量全局内存(低于 20 M)的 CUDA 程序时，出现“内存不足"错误.(从其他人的帖子中，我认为问题与内存碎片有关)我试图理解这个问题，并意识到我有几个与 CUDA 内存管理相关的问题. CUDA 中有虚拟内存的概念吗? 如果只允许一个内核同时在 CUDA 上运行，在它终止后，它使用或分配的所有内存是否都会释放?如果没有，这些内存何时释放? 如果允许在 CUDA ..

发布时间：2022-01-10 15:14:57 cuda nvidia gpu 其他开发

错误消息:找不到或打开 PDB 文件

我尝试运行 NVIDIA 官方网站提供的示例程序.大多数程序运行顺利，除了少数我收到类似错误消息的地方.我该如何解决?这是我在运行名为“MatrixMul"的程序后收到的错误消息示例. 注意:我在 Window7x64 上安装了 x32 和 x64 NVIDIA CUDA Toolkit v5.0操作系统. 'matrixMul.exe':已加载 'C:\ProgramData\NVIDI ..

发布时间：2022-01-10 15:12:29 visual-studio-2010 cuda nvidia windows-7-x64 其他开发

CUDA:如何在 GPU 中将数组的所有元素加总为一个数字?

首先，让我声明我完全知道我的问题已经被问到:BlockCUDA 的减少但是，正如我希望澄清的那样，我的问题是对此的跟进，我有特殊的需求，使得该 OP 找到的解决方案不合适. 那么，让我解释一下.在我当前的代码中，我在 while 循环的每次迭代中运行一个 Cuda 内核，以对数组的值进行一些计算.举个例子，可以这样想: int max_iterations = 1000;整数迭代 = 0 ..

发布时间：2022-01-09 16:33:21 arrays cuda sum nvidia reduction 其他开发

Pytorch CUDA 错误:没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下: 导入火炬导入系统打印('A'，系统版本)打印('B'，火炬.__版本__)打印('C'，torch.cuda.is_available())打印('D'，torch.backends.cudnn.enabled)device = torch.device('cuda')打印('E'，torch.cuda.get_device_properties(设备))打印('F'，torc ..

发布时间：2022-01-06 19:48:50 python pytorch nvidia Python

如何在 windows 中使用 CUDA 的协作组功能

我的 GPU 是 GeForce MX150，pascal 架构，CC.6.1、CUDA 9.1、Windows 10.虽然我的 GPU 是 pascal 但协作组不起作用.我想用它进行块间同步. 我发现我的 tcc 模式未激活. 我还发现它在 Windows 中的 wddm 中不活跃. 如何使用协作组? 如何在 Windows 中激活 tcc 模式? 感谢您的回复. 解决方案 ..

发布时间：2021-12-30 21:43:01 parallel-processing cuda nvidia gpu gpu-cooperative-groups 其他开发

GPU上的计算导致驱动程序错误“停止响应"

我在 MATLAB R2013b 中执行了这个无意义的小脚本: 清除所有；n = 2000；次 = 50;我 = 0;tCPU = tic;显示 'CPU::'A = rand(n, n);B = rand(n, n);显示'::去'对于 i = 0:timesCPU = A * B;结尾tCPU = toc(tCPU);tGPU = tic;disp 'GPU::'A = gpuArray(A ..

发布时间：2021-12-30 21:15:48 matlab cuda parallel-processing nvidia matlab-gpu 其他开发

Cuda 内核返回向量

我有一个单词列表，我的目标是匹配一个非常长的短语中的每个单词.我在匹配每个单词时没有问题，我唯一的问题是返回一个包含每个匹配信息的结构向量. 在代码中: typedef struct {国际A，B，C;} 比赛;__global__ void Find(veryLongPhrase * _phrase, Words * _word_list, vector * _matches){输入 a ..

发布时间：2021-12-30 21:04:24 c++ c cuda parallel-processing nvidia C/C++开发

如何让 TensorFlow 100% 使用 GPU?

我有一台配备 RTX 2060 GPU 的笔记本电脑，我正在使用 Keras 和 TF 2 在其上训练 LSTM.我还通过 nvidia-smi 监视 gpu 的使用，我注意到 jupyter notebook 和 TF 的使用率最高为 35%，通常 gpu 的使用率在 10-25% 之间. 目前条件下，训练这个模型需要7个多小时，我想知道是我做错了什么还是Keras和TF的限制? 我 ..

发布时间：2021-12-27 17:28:34 tensorflow keras deep-learning gpu nvidia 其他开发

如何检查 pytorch 是否正在使用 GPU?

我想知道 pytorch 是否在使用我的 GPU.如果在此过程中 GPU 有任何活动，可以使用 nvidia-smi 进行检测，但我想要用 python 脚本编写的内容. 有没有办法做到这一点? 解决方案这应该有效: 导入火炬torch.cuda.is_available()>>>真的torch.cuda.current_device()>>>0torch.cuda.device ..

发布时间：2021-12-24 16:54:06 python memory-management gpu nvidia pytorch Python

使用 ffmpeg 进行 GPU 加速的视频处理

我想使用 ffmpeg 通过 NVIDIA GPU 加速视频编码和解码. 来自 NVIDIA 网站: NVIDIA GPU 包含一个或多个基于硬件的解码器和编码器(独立于 CUDA 内核)，可为多种流行的编解码器提供完全加速的基于硬件的视频解码和编码.解码/编码卸载后，图形引擎和 CPU 可用于其他操作. 我的问题是:我可以使用 CUDA 内核编码和解码视频吗，也许更快? ..

发布时间：2021-12-21 14:25:46 video ffmpeg nvidia 其他开发

Linux 中没有 X.org 的 OpenGL

我想在 Linux 中打开一个没有 X 的 OpenGL 上下文.有什么办法可以做到吗? 我知道集成英特尔显卡硬件是可能的，尽管大多数人的系统中都有 Nvidia 卡.我想要一个适用于 Nvidia 卡的解决方案. 如果没有其他方法只能通过集成的英特尔硬件，我想知道如何使用这些硬件就可以了. X11 协议本身太大太复杂.它提供的鼠标/键盘/平板电脑输入多路复用对于现代程序来说太淡 ..

发布时间：2021-12-19 17:44:00 linux opengl x11 nvidia 服务器开发

错误消息:无法找到或打开 PDB 文件

我尝试运行 NVIDIA 官方网站提供的示例程序.大多数程序运行顺利，除了少数我收到类似错误消息的地方.我该如何解决?这是我在运行名为“MatrixMul"的程序后得到的错误消息示例. 注意:我已经在我的 Window7x64 上安装了 x32 和 x64 NVIDIA CUDA Toolkit v5.0操作系统. 'matrixMul.exe':已加载 'C:\ProgramData\N ..

发布时间：2021-12-14 18:38:37 visual-studio-2010 cuda nvidia windows-7-x64 其他开发

使用 nVidia Optimus 强制系统为我的应用程序使用真正的 GPU?

我希望我的应用程序始终在 nVidia Optimus 笔记本电脑上使用真正的 GPU 运行. 来自“在 Optimus 系统上启用高性能图形渲染"，(http://developer.download.nvidia.com/devzone/devcenter/gamegraphics/files/OptimusRenderingPolicies.pdf): 全局变量 NvOptimu ..

发布时间：2021-12-13 23:29:08 delphi opengl nvidia 其他开发

我的 nvidia 驱动程序的正确 CUDA 版本是什么?

我使用的是 ubuntu 14.04.我想安装CUDA.但我不知道哪个版本适合我的笔记本电脑.我跟踪我的驱动程序是: $cat/proc/driver/nvidia/versionNVRM 版本:NVIDIA UNIX x86_64 内核模块 304.125 Mon Dec 1 19:58:28 PST 2014GCC 版本:gcc 版本 4.8.2 (Ubuntu 4.8.2-19ubuntu ..

发布时间：2021-12-12 11:56:01 ubuntu gcc cuda nvidia 其他开发

Tensorflow 未在 GPU 上运行

我已经花费了大量时间在堆栈溢出问题上进行挖掘并寻找答案，但一无所获大家好，我在上面运行带有 Keras 的 Tensorflow.我 90% 确定我安装了 Tensorflow GPU，有什么方法可以检查我安装的是哪个? 我试图从 Jupyter notebook 运行一些 CNN 模型，我注意到 Keras 在 CPU 上运行模型(检查任务管理器，CPU 处于 100%). ..

发布时间：2021-12-09 22:35:24 tensorflow keras nvidia cudnn 其他开发

如何让 tensorflow 在具有 2.x 功能的 GPU 上运行?

我已在 Linux Ubuntu 16.04 上成功安装了 tensorflow (GPU) 并进行了一些小改动，以使其适用于新的 Ubuntu LTS 版本. 但是，我认为(谁知道为什么)我的 GPU 满足了大于 3.5 的计算能力的最低要求.情况并非如此，因为我的 GeForce 820M 只有 2.1.有没有办法让 tensorflow GPU 版本与我的 GPU 一起工作? 我 ..

发布时间：2021-12-09 22:21:01 cuda tensorflow nvidia cudnn 其他开发

DataGridView 在我的两个屏幕之一上的可怕重绘性能

我实际上已经解决了这个问题，但我将其发布以供后代使用. 我的双显示器系统上的 DataGridView 遇到了一个非常奇怪的问题.该问题表现为控件的重绘极其缓慢(完全重绘需要 30 秒)，但仅当它出现在我的一个屏幕上时.另一方面，重绘速度很好. 我有一台 Nvidia 8800 GT 和最新的非测试版驱动程序(175.某事).是驱动程序错误吗?我将把它搁置一旁，因为我必须忍受这种特殊的 ..

发布时间：2021-12-08 13:57:28 .net winforms performance datagridview nvidia C#/.NET

如何为 CUDA 内核选择网格和块尺寸?

这是一个关于如何确定CUDA网格、块和线程大小的问题.这是对此处发布的问题的附加问题. 在此链接之后，talonmies 的答案包含一个代码片段(见下文).我不明白评论“通常由调整和硬件限制选择的值". 我在 CUDA 文档中没有找到很好的解释或说明来解释这一点.总之，我的问题是如何确定最佳 blocksize(线程数)给定以下代码: const int n = 128 * 1024 ..

发布时间：2021-12-08 11:04:26 performance optimization cuda gpu nvidia 其他开发

AMD 的 OpenCL 是否提供类似于 CUDA 的 GPUDirect 的功能?

NVIDIA 提供 GPUDirect 以减少内存传输开销.我想知道 AMD/ATI 是否有类似的概念?具体: 1) AMD GPU 在与网卡接口时是否避免了第二次内存传输，如此处所述.如果图形在某些时候丢失，这里描述了 GPUDirect 对从一台机器上的 GPU 获取数据以通过网络接口传输的影响的描述:使用 GPUDirect，GPU 内存进入主机内存，然后直接进入网络接口卡.没有GPU ..

发布时间：2021-11-27 11:32:01 cuda opencl nvidia amd gpudirect 其他开发

nvidia相关内容