gpu相关内容

CUDA中的矩阵向​​量乘法:基准&性能

我更新我的问题与一些新的基准测试结果(我也重新设计的问题更具体,我更新了代码)... 在CUDA C中的矩阵向​​量乘法的内核,位于 CUDA C使用共享内存。让我首先提出一些基准测试结果,我在一个Jetson TK1(GPU:Tegra K1,计算能力3.2)和一个与cuBLAS的比较: 这里我猜cuBLAS有一些魔术,因为它似乎执行不受数字 A 的列,这反过来意味着沿着 A 的列有 ..
发布时间:2017-03-04 12:13:38 其它硬件开发

帮我理解cuda

我有一些麻烦理解线程在NVIDIA gpu架构与cuda。 请任何人可以澄清这些信息: 8800 gpu有16 SMs每个8个SP。所以我们有128个SP。 我正在查看斯坦福的视频演示,它说,每个SP都能够运行96线程。这意味着它(SP)可以同时运行96/32 = 3条经纱? 此外,由于每个SP可以运行96个线程, 。这是否意味着每个SM可以运行96 * 8 = 768个线程? ..
发布时间:2017-03-04 12:10:31 其它硬件开发

GPU内存在CUDA脚本执行后不释放自己

我在执行CUDA脚本后遇到了显卡保留内存的问题(即使使用cudaFree())。 启动时总共使用的内存大约是128MB,但在脚本运行后,它在执行内存时会耗尽内存。 nvidia-sma: + ------------------------------------- ----------------- + | NVIDIA-SMI 340.29驱动程序版本:340.29 | ..
发布时间:2017-03-04 12:02:25 服务器开发

与第三方CUDA库链接会减慢cudaMalloc

这不是一个秘密,在CUDA 4.x的第一次调用 cudaMalloc 可以是可笑的慢(这是报告了几次),貌似一个 最近,我注意到了奇怪的行为: cudaMalloc 的运行时间取决于我链接到我的程序的第三方CUDA库 (注意,我不使用这些库,只是链接我的程序) 我使用以下程序运行一些测试: int main(){ cudaSetDevice(0); unsigned ..
发布时间:2017-03-04 11:54:33 其它硬件开发

将主机函数作为函数指针传递给CUDA中的__global__或__device__函数

我目前正在开发一个GPU版本的CPU函数 (例如函数Calc(int a,int b,double * c,souble * d,CalcInvFunction GetInv)),其中主函数通过函数指针(例如在上面的例子中GetInv是CalcInvFunction类型的主函数)。我的问题是,如果我必须把Calc()函数完全在GPU中,我必须传递GetInv函数作为函数指针参数在设备功能/内核函 ..
发布时间:2017-03-04 11:51:49 其它硬件开发

任何特定的函数来初始化GPU而不是第一个cudaMalloc调用?

第一个cudaMalloc调用是慢的(如0.2秒),因为在GPU上的一些初始化工作。有没有任何功能,只做初始化,这样我可以分开的时间? cudaSetDevice似乎将时间减少到0.15秒,但仍然不能消除所有init开销。 解决方案 呼叫 cudaFree(0); 是在CUDA运行时强制延迟上下文建立的规范方法。您不能减少开销,这是驱动程序,运行时和操作系统延迟的 ..
发布时间:2017-03-04 11:48:52 其它硬件开发

多GPU基本使用

如何使用两个设备为了改善例如 下面的代码的性能(向量的总和)? “同时”可以使用更多的设备吗? 如果是,我如何管理向量在不同设备的全局内存上的分配? # include #include #include #include #include #define NB 32 ..
发布时间:2017-03-04 11:46:24 其它硬件开发

Python GPU编程

我目前正在一个项目在python,我想利用GPU的一些计算。 乍一看,似乎有许多工具可用;第二眼看来,我觉得我失去了一些东西。 Copperhead看起来很棒,但还没有发布。似乎只限于编写低级CUDA或openCL内核;没有推力,没有cudpp。如果id喜欢有东西排序,我自己要做。 这对我来说似乎不太对。我确实错过了什么吗?或者是这个GPU脚本不太适合炒作呢? 编辑:GPU ..
发布时间:2017-03-04 11:45:58 Python

我可以在英特尔的集成图形处理器上运行CUDA吗?

我有一个非常简单的东芝笔记本电脑与i3处理器。此外,我没有任何昂贵的显卡。在显示设置中,我看到 Intel(HD)Graphics (显示适配器)。我计划学习一些cuda编程。但是,我不知道,如果我可以在我的笔记本电脑,因为它没有任何nvidia的cuda启用GPU。 事实上,我怀疑,如果我甚至有一个GPU o_o 因此,如果有人可以告诉我是否可以使用当前配置进行CUDA编程,如果可能 ..
发布时间:2017-03-04 11:41:01 其它硬件开发

如何测量NVIDIA CUDA的内核时间?

我想测量GPU的内核时间,如何在NVIDIA CUDA中测量它? eg __ global__ void kernelSample() { 这里的一些代码 获取开始时间 一些代码在这里 获取停止时间 一些代码在这里 } 解决方案 尝试这样,它会以毫秒为单位测量两个事件之间的时间。 cudaEvent_t start,stop; float elapsedT ..
发布时间:2017-03-04 11:31:45 其它硬件开发

GPU模拟器,用于CUDA编程,无需硬件

问题:是否有一个Geforce卡的仿真器,它允许我在没有实际硬件的情况下对CUDA进行编程和测试? 信息: 我想加快几个模拟我的CUDA,但我的问题是,我不是总是在我的桌面做这个发展。我想在我的上网本做一些工作,但我的上网本没有GPU。现在据我所知,你需要一个CUDA能力的GPU来运行CUDA。有办法解决这个问题吗?看起来像是唯一的方法是一个GPU模拟器(显然会很痛苦,但会工作)。 ..
发布时间:2017-03-04 11:28:07 其它硬件开发

修改注册表以增加GPU超时,Windows 7

我试图将GPU的超时从默认设置2秒增加到更长的时间。我发现以下链接,但它看起来略有不同窗口7,因为我看不到任何提到的网页。 有没有人做过这个? 感谢 @RoBik如下如果我想要6天(bit过度我知道,但只是为例)?再次感谢您的帮助,+1。 EDIT 这是错误im当前正在获取。 发生错误,操作已终止。 CUDA.NET异常:ErrorLaunchTimeOut。 ..
发布时间:2017-03-04 11:27:34 其它硬件开发

如何为CUDA内核选择网格和块尺寸?

这是一个关于如何确定CUDA网格,块和线程大小的问题。这是发布在此处的附加问题: http:// stackoverflow.com/a/5643838/1292251 在这个链接之后,talonmies的答案包含一个代码片段(见下文)。我不明白评论“通常通过调整和硬件约束选择的值”。 我没有找到一个很好的解释或澄清,解释这在CUDA文档。总之,我的问题是如何确定最佳的 bloc ..
发布时间:2017-03-04 11:24:00 其它硬件开发

CSS3的哪些部分是GPU加速的?

我一直在阅读几个参考文献,例如“X是GPU加速”和“Y不是GPU加速”,但我找不到一个完整的列表。 解决方案 对,这是一个有趣的话题,它确实依赖于浏览器+显卡。 Webkit(Safari,Chrome,iOS,Android) 在Webkit中, AnimationBase.cpp 用于指定它,但它似乎已经移动了! Doh!好吧,无论如何,如果你搜索代码 ACCELERATE ..
发布时间:2017-02-18 23:31:14 前端开发

iOS Safari使用“-webkit-transform”来耗尽内存。

http://jsfiddle.net/ES4xG/8/ 会导致大多数视网膜设备崩溃。 iOS Safari在使用一些 -webkit-transform 指令时,容易出现内存不足和崩溃。这种方法提供了令人印象深刻的图形,但是,特别是在视网膜显示器,似乎消耗大量的记忆和导致崩溃。 上面的演示显示一个文本显示150次,否则在PC浏览器上正常运行: 字体大小和元素数量被夸大,导致崩溃 ..
发布时间:2017-02-18 21:40:24 移动开发

如何使已编写的并发程序在GPU阵列上运行?

我有一个用Erlang编写的神经网络,我刚买了一颗GeForce GTX 260卡,带有240核GPU。使用 CUDA 作为胶水在图形卡上运行是否很简单? 解决方案 不,使用CUDA不是一件小事。 CUDA编程模型基本上使用C(还有一些补充),但为了充分利用GPGPU的功能,您必须确保算法遵循CUDA指南。 (请参阅 NVidia CUDA编程指南) 例如,为了获得最佳的内存性 ..
发布时间:2016-12-26 15:52:45 其他开发

CUDA多GPU执行中的并发

我在多GPU系统上运行cuda内核函数,使用 4 GPU。我预计他们将同时推出,但他们不是。我测量每个内核的开始时间,第二个内核在第一个内核完成执行后启动。因此,在 4 GPU上启动内核不会比 1 单GPU更快。 我如何让他们同时工作? 这是我的代码: cudaSetDevice(0); GPU_kernel>(d_r ..
发布时间:2016-12-26 15:41:14 其他开发

为什么cuFFT这么慢?

我希望加速一个计算机视觉应用程序,使用FFTW和OpenMP在Intel CPU上计算许多FFT。然而,对于各种FFT问题大小,我发现cuFFT比使用OpenMP的FFTW慢。 在下面的实验和讨论中,我发现对于批量2D FFT,cuFFT比FFTW慢。 为什么cuFFT这么慢,我能做些什么来使cuFFT运行得更快吗? 实验(代码下载) 我们的计算机视觉应用需要进行正向FFT一堆尺 ..
发布时间:2016-12-26 11:43:16 其他开发