nvprof - IT屋-程序员软件开发技术分享社区

带宽的 nvprof 选项

从命令行使用 nvprof --metrics 测量带宽的正确选项是什么?我正在使用 flop_dp_efficiency 来获取峰值 FLOPS 的百分比，但是手册中似乎有很多带宽测量选项，我并不真正了解我在测量什么.例如dram_read、dram_write、gld_read、gld_write 在我看来都一样.另外，我是否应该通过假设两者同时发生来将带宽报告为读+写吞吐量的总和? 编 ..

发布时间：2022-01-10 15:25:36 cuda profiling nvprof 其他开发

什么是redzone_checker?在GPU上分析我的Tensorflow应用程序

我正在使用NVIDIA的命令行Visual Profiler nvprof对一个tensorflow GPU应用程序进行性能分析，而已启动并且在性能分析中非常活跃的内核之一就是所谓的redzone_checker吗?我一生无法在互联网上任何地方找到任何有用的信息…… 任何帮助或提示都将不胜感激. nvprof中的redzone_checker内核解决方案 redzone_ch ..

发布时间：2021-05-13 18:42:17 tensorflow gpu profiling nvprof 其他开发

对任意CUDA应用程序进行性能分析

我当然知道 nvvp 和 nvprof 的存在，但是出于各种原因， nvprof 不想与我的应用一起使用涉及很多共享库. nvidia-smi 可以挂接到驱动程序中以了解正在运行的程序，但是我找不到让 nvprof 附加到正在运行的进程的好方法. 有一个标记-profile-all-processes ，它实际上确实给我一个消息"NVPROF正在分析过程12345"，但是没有进一步打印出来. ..

发布时间：2021-04-27 20:09:52 linux cuda nvprof nvvp 服务器开发

nvprof没有拾取任何API调用或内核

我正在尝试使用nvprof在CUDA程序中获得一些基准测试时间，但不幸的是，它似乎并未分析任何API调用或内核。我寻找了一个简单的初学者示例，以确保自己做得对，并在Nvidia开发博客上找到了一个示例： https://devblogs.nvidia.com/parallelforall/how-optimize-data-transfers-cuda-cc/ 代码： int ..

发布时间：2020-10-13 01:22:45 c cuda profiling nvprof 其他开发

用于CUDA目标的Numba和guvectorize：代码运行速度比预期的慢

值得注意的细节大型数据集（1000万x 5），（200 x 1000万x 5）多数为脾气每次运行后需要更长的时间使用Spyder3 Windows 10 第一件事是尝试通过以下功能使用guvectorize。我传入了一堆numpy数组，并尝试使用它们在两个数组之间进行乘法运算。如果与cuda以外的目标一起运行，这将起作用。但是，当切换到cuda时，会导致出现未知错误： ..

发布时间：2020-10-13 01:06:54 python performance cuda numba nvprof Python

无法导入nvprof生成的配置文件数据

我正在尝试使用 nvprof 分析基于TensorFlow的代码。我为此使用以下命令 nvprof python ass2.py 程序成功运行，但最后显示以下错误。 == 49791 ==分析应用程序：python ass2.py ========错误：无法导入nvprof生成的配置文件数据。解决方案我不知道确切原因，但使用nvprof ..

发布时间：2020-10-13 01:03:34 python cuda tensorflow nvprof Python

nvprof命令错误：找不到cupti64_102.dll

当我尝试在命令提示符下运行 nvprof 命令时，系统弹出Erros并说：“由于无法找到cupti64_102.dll，代码执行无法继续。重新安装程序可能会解决此问题。“ 我已安装CUDA Toolkit 10.2，但 cupti64_102.dll 不在 / bin 。系统：Windows 10，Quadro K4200，CUDA10.2，CUDA Toolkit 10.2 ..

发布时间：2020-10-13 00:44:48 cuda nvidia nvcc nvprof 其他开发

如何观察可执行文件子部分的CUDA事件和指标（例如，仅在内核执行期间）？

我熟悉使用nvprof来访问基准事件和指标，例如 nvprof --system -在--print-gpu-trace -o上进行概要分析（文件名）--events inst_issued1 ./基准名称 --print-gpu-trace -o（文件名）命令提供开始时间，内核结束时间，功率，温度的时间戳记，并将信息保存到nvvp文件中，以 ..

发布时间：2020-10-13 00:42:15 cuda profiling nvvp nvprof 其他开发

如何使用CUDA 8.0 nvprof剖析OpenCL应用程序

我正在尝试在装有NVIDIA TITAN X和CUDA 8.0的系统中分析OpenCL应用程序a.out. 如果是CUDA应用程序，则nvprof ./a.out就足够了.但是我发现这不适用于OpenCL应用程序，并显示一条消息“未分析内核". 直到CUDA 7.5，我在COMPUTE_PROFILE=1 >此.不幸的是，文档说:"CUDA 8.0版本中已删除了对使用环境变量COMPU ..

发布时间：2020-05-20 18:53:37 cuda profiling opencl nvprof 其他开发

nvprof选项用于带宽

使用nvprof --metrics从命令行测量带宽的正确选项是什么？我使用flop_dp_efficiency来获得峰值FLOPS的百分比，但在手册中似乎有很多选项用于带宽测量，我不知道我正在测量什么。例如dram_read，dram_write，gld_read，gld_write看起来都一样。此外，我应该报告bandwdith作为读+写吞吐量的总和，假设两者同时发生？编辑：根 ..

发布时间：2017-03-04 15:02:38 cuda profiling nvprof 其它硬件开发

nvprof相关内容