gpu 第38页 - IT屋-程序员软件开发技术分享社区

CUDA中的矩阵向量乘法：基准&性能

我更新我的问题与一些新的基准测试结果（我也重新设计的问题更具体，我更新了代码）... 在CUDA C中的矩阵向量乘法的内核，位于 CUDA C使用共享内存。让我首先提出一些基准测试结果，我在一个Jetson TK1（GPU：Tegra K1，计算能力3.2）和一个与cuBLAS的比较：这里我猜cuBLAS有一些魔术，因为它似乎执行不受数字 A 的列，这反过来意味着沿着 A 的列有 ..

发布时间：2017-03-04 12:13:38 cuda gpu gpgpu nvidia cublas 其它硬件开发

帮我理解cuda

我有一些麻烦理解线程在NVIDIA gpu架构与cuda。请任何人可以澄清这些信息： 8800 gpu有16 SMs每个8个SP。所以我们有128个SP。我正在查看斯坦福的视频演示，它说，每个SP都能够运行96线程。这意味着它（SP）可以同时运行96/32 = 3条经纱？此外，由于每个SP可以运行96个线程，。这是否意味着每个SM可以运行96 * 8 = 768个线程？ ..

发布时间：2017-03-04 12:10:31 cuda gpu parallel-processing 其它硬件开发

GPU内存在CUDA脚本执行后不释放自己

我在执行CUDA脚本后遇到了显卡保留内存的问题（即使使用cudaFree（））。启动时总共使用的内存大约是128MB，但在脚本运行后，它在执行内存时会耗尽内存。 nvidia-sma： + ------------------------------------- ----------------- + | NVIDIA-SMI 340.29驱动程序版本：340.29 | ..

发布时间：2017-03-04 12:02:25 linux cuda gpu nvidia linuxmint 服务器开发

与第三方CUDA库链接会减慢cudaMalloc

这不是一个秘密，在CUDA 4.x的第一次调用 cudaMalloc 可以是可笑的慢（这是报告了几次），貌似一个最近，我注意到了奇怪的行为： cudaMalloc 的运行时间取决于我链接到我的程序的第三方CUDA库（注意，我不使用这些库，只是链接我的程序）我使用以下程序运行一些测试： int main（）{ cudaSetDevice（0）; unsigned ..

发布时间：2017-03-04 11:54:33 cuda gpu gpgpu gpu-programming 其它硬件开发

将主机函数作为函数指针传递给CUDA中的global或device函数

我目前正在开发一个GPU版本的CPU函数（例如函数Calc（int a，int b，double * c，souble * d，CalcInvFunction GetInv）），其中主函数通过函数指针（例如在上面的例子中GetInv是CalcInvFunction类型的主函数）。我的问题是，如果我必须把Calc（）函数完全在GPU中，我必须传递GetInv函数作为函数指针参数在设备功能/内核函 ..

发布时间：2017-03-04 11:51:49 cuda gpu gpgpu 其它硬件开发

任何特定的函数来初始化GPU而不是第一个cudaMalloc调用？

第一个cudaMalloc调用是慢的（如0.2秒），因为在GPU上的一些初始化工作。有没有任何功能，只做初始化，这样我可以分开的时间？ cudaSetDevice似乎将时间减少到0.15秒，但仍然不能消除所有init开销。解决方案呼叫 cudaFree（0）; 是在CUDA运行时强制延迟上下文建立的规范方法。您不能减少开销，这是驱动程序，运行时和操作系统延迟的 ..

发布时间：2017-03-04 11:48:52 cuda gpu 其它硬件开发

多GPU基本使用

如何使用两个设备为了改善例如下面的代码的性能（向量的总和）？ “同时”可以使用更多的设备吗？如果是，我如何管理向量在不同设备的全局内存上的分配？＃ include #include #include #include #include #define NB 32 ..

发布时间：2017-03-04 11:46:24 cuda gpu multi-gpu 其它硬件开发

Python GPU编程

我目前正在一个项目在python，我想利用GPU的一些计算。乍一看，似乎有许多工具可用;第二眼看来，我觉得我失去了一些东西。 Copperhead看起来很棒，但还没有发布。似乎只限于编写低级CUDA或openCL内核;没有推力，没有cudpp。如果id喜欢有东西排序，我自己要做。这对我来说似乎不太对。我确实错过了什么吗？或者是这个GPU脚本不太适合炒作呢？编辑：GPU ..

发布时间：2017-03-04 11:45:58 python cuda gpu Python

我可以在英特尔的集成图形处理器上运行CUDA吗？

我有一个非常简单的东芝笔记本电脑与i3处理器。此外，我没有任何昂贵的显卡。在显示设置中，我看到 Intel（HD）Graphics （显示适配器）。我计划学习一些cuda编程。但是，我不知道，如果我可以在我的笔记本电脑，因为它没有任何nvidia的cuda启用GPU。事实上，我怀疑，如果我甚至有一个GPU o_o 因此，如果有人可以告诉我是否可以使用当前配置进行CUDA编程，如果可能 ..

发布时间：2017-03-04 11:41:01 graphics cuda gpu gpu-programming 其它硬件开发

OpenCV 2.4.3rc和CUDA 4.2：“OpenCV Error：No GPU support”

我已在此相册中上传了几个屏幕截图： http://imgur.com/a/w4jHc 我试图在Visual Studio 2008中的GPU上运行OpenCV。我运行的OpenCV GPU示例代码之一，bgfg_segm.cpp。但是，当我编译（没有编译错误）它引发“OpenCV错误：没有GPU suport”。 Visual Studio 2008 nVidia Quadro 10 ..

发布时间：2017-03-04 11:38:02 visual-studio-2008 opencv cuda gpu 其它硬件开发

如何测量NVIDIA CUDA的内核时间？

我想测量GPU的内核时间，如何在NVIDIA CUDA中测量它？ eg __ global__ void kernelSample（） { 这里的一些代码获取开始时间一些代码在这里获取停止时间一些代码在这里 } 解决方案尝试这样，它会以毫秒为单位测量两个事件之间的时间。 cudaEvent_t start，stop; float elapsedT ..

发布时间：2017-03-04 11:31:45 cuda gpu gpgpu nvidia 其它硬件开发

GPU模拟器，用于CUDA编程，无需硬件

问题：是否有一个Geforce卡的仿真器，它允许我在没有实际硬件的情况下对CUDA进行编程和测试？信息：我想加快几个模拟我的CUDA，但我的问题是，我不是总是在我的桌面做这个发展。我想在我的上网本做一些工作，但我的上网本没有GPU。现在据我所知，你需要一个CUDA能力的GPU来运行CUDA。有办法解决这个问题吗？看起来像是唯一的方法是一个GPU模拟器（显然会很痛苦，但会工作）。 ..

发布时间：2017-03-04 11:28:07 cuda gpu emulator cpu 其它硬件开发

修改注册表以增加GPU超时，Windows 7

我试图将GPU的超时从默认设置2秒增加到更长的时间。我发现以下链接，但它看起来略有不同窗口7，因为我看不到任何提到的网页。有没有人做过这个？感谢 @RoBik如下如果我想要6天（bit过度我知道，但只是为例）？再次感谢您的帮助，+1。 EDIT 这是错误im当前正在获取。发生错误，操作已终止。 CUDA.NET异常：ErrorLaunchTimeOut。 ..

发布时间：2017-03-04 11:27:34 cuda gpu gpgpu regedit 其它硬件开发

如何为CUDA内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格，块和线程大小的问题。这是发布在此处的附加问题： http：// stackoverflow.com/a/5643838/1292251 在这个链接之后，talonmies的答案包含一个代码片段（见下文）。我不明白评论“通常通过调整和硬件约束选择的值”。我没有找到一个很好的解释或澄清，解释这在CUDA文档。总之，我的问题是如何确定最佳的 bloc ..

发布时间：2017-03-04 11:24:00 performance optimization cuda gpu nvidia 其它硬件开发

CSS3的哪些部分是GPU加速的？

我一直在阅读几个参考文献，例如“X是GPU加速”和“Y不是GPU加速”，但我找不到一个完整的列表。解决方案对，这是一个有趣的话题，它确实依赖于浏览器+显卡。 Webkit（Safari，Chrome，iOS，Android）在Webkit中， AnimationBase.cpp 用于指定它，但它似乎已经移动了！ Doh！好吧，无论如何，如果你搜索代码 ACCELERATE ..

发布时间：2017-02-18 23:31:14 html5 css3 gpu 前端开发

iOS Safari使用“-webkit-transform”来耗尽内存。

http://jsfiddle.net/ES4xG/8/ 会导致大多数视网膜设备崩溃。 iOS Safari在使用一些 -webkit-transform 指令时，容易出现内存不足和崩溃。这种方法提供了令人印象深刻的图形，但是，特别是在视网膜显示器，似乎消耗大量的记忆和导致崩溃。上面的演示显示一个文本显示150次，否则在PC浏览器上正常运行：字体大小和元素数量被夸大，导致崩溃 ..

发布时间：2017-02-18 21:40:24 ios css3 mobile-safari webgl gpu 移动开发

如何使已编写的并发程序在GPU阵列上运行？

我有一个用Erlang编写的神经网络，我刚买了一颗GeForce GTX 260卡，带有240核GPU。使用 CUDA 作为胶水在图形卡上运行是否很简单？解决方案不，使用CUDA不是一件小事。 CUDA编程模型基本上使用C（还有一些补充），但为了充分利用GPGPU的功能，您必须确保算法遵循CUDA指南。（请参阅 NVidia CUDA编程指南）例如，为了获得最佳的内存性 ..

发布时间：2016-12-26 15:52:45 concurrency erlang cuda parallel-processing gpu 其他开发

CUDA多GPU执行中的并发

我在多GPU系统上运行cuda内核函数，使用 4 GPU。我预计他们将同时推出，但他们不是。我测量每个内核的开始时间，第二个内核在第一个内核完成执行后启动。因此，在 4 GPU上启动内核不会比 1 单GPU更快。我如何让他们同时工作？这是我的代码： cudaSetDevice（0）; GPU_kernel>（d_r ..

发布时间：2016-12-26 15:41:14 concurrency cuda gpu multiple-gpu 其他开发

为什么cuFFT这么慢？

我希望加速一个计算机视觉应用程序，使用FFTW和OpenMP在Intel CPU上计算许多FFT。然而，对于各种FFT问题大小，我发现cuFFT比使用OpenMP的FFTW慢。在下面的实验和讨论中，我发现对于批量2D FFT，cuFFT比FFTW慢。为什么cuFFT这么慢，我能做些什么来使cuFFT运行得更快吗？实验（代码下载）我们的计算机视觉应用需要进行正向FFT一堆尺 ..

发布时间：2016-12-26 11:43:16 cuda computer-vision gpu fft fftw 其他开发

TensorFlow默认情况下使用机器中的所有可用的GPU？

我的机器中有3个GTX Titan GPU。我使用cifar10_train.py运行Cifar10中提供的示例，并获得以下输出： I tensorflow / core / common_runtime / gpu / gpu_init.cc:60]无法启用从设备序号0到设备序号1的对等访问 I tensorflow / core / common_runtime / gpu / gp ..

发布时间：2016-12-26 11:34:29 machine-learning computer-vision gpu tensorflow AI人工智能

gpu相关内容