nvidia 第19页 - IT屋-程序员软件开发技术分享社区

将2D数组复制到已知可变宽度的GPU

我正在研究如何将每行的可变宽度的2D数组复制到GPU中。 int rows = 1000; int cols; int ** host_matrix = malloc（sizeof（* int）* rows）; int * d_array; int * length; ... 每个 host_matrix [i ] 可能有不同的长度，我知道 len ..

发布时间：2017-03-04 13:57:00 cuda gpu gpgpu nvidia 其它硬件开发

我应该使用什么设备号（0或1），复制P2P（GPU0-> GPU1）？

我需要在 cudaSetDevice（）; 中设置0或1，才能使用 GPU1） > cudaStreamCreate（stream）; cudaMemcpyPeerAsync（p1，1，p0，0，size，stream）; ？代码： //将设备0设置为当前 cudaSetDevice（0）; float * p0; size_t size = 1024 * sizeof（ ..

发布时间：2017-03-04 13:54:01 cuda gpgpu nvidia 其它硬件开发

在计算Nvidia GPU卡的GFLOPS时，假设每个核心有多少线程？

我有兴趣获得在GeForce GTX 550 Ti上执行1次双精度FLOP所需的纳秒数。为了做到这一点，我采用了这种方法：我发现卡的单精度峰值性能是691.2 GFLOPS，这意味着双精度峰值性能为1/8，即86.4GFLOPS。然后为了获得每个核的FLOPS，我将86.4 GFLOPS除以核的数量192，这给出每个核0.45GFLOPS。 0.45 GFLOPS是指每个纳米每个核心0.4 ..

发布时间：2017-03-04 13:53:13 cuda gpu nvidia 其它硬件开发

在CUDA中查找最大/最小值，而不将其传递到CPU

我需要找到浮点数组中最大元素的索引。我使用的函数“cublasIsamax”，但这返回索引到CPU，这是减慢了应用程序的运行时间。有没有办法有效地计算此索引并将其存储在GPU中？谢谢！ p> 解决方案由于引入了CUBLAS V2 API（使用CUDA 4.0，IIRC），所以可能有返回标量或索引将这些直接存储在设备存储器中的变量中，而不是存储到主机变量（其需要设备主机传输 ..

发布时间：2017-03-04 13:49:53 cuda parallel-processing nvidia cublas 其它硬件开发

Parallel NSight for Visual studio 2010支持在服务器上调试？

我为Visual Studio 2010安装了Parallel Nsight。由于我的研究，它不能在没有NVIDIA显卡的机器上进行调试。因此，我想在服务器上调试它（连接到服务器），是否可能？提前感谢。解决方案是的。您可以在开发者计算机上安装Visual Studio和Parallel Nsight，并使用GPU在远程计算机上安装Parallel Nsight。 ..

发布时间：2017-03-04 13:40:49 cuda nvidia nsight 其它硬件开发

创建CUDA上下文的区别

我有一个程序使用三个内核。为了得到加速，我做一个虚拟内存副本创建一个上下文如下： __ global__ void warmStart * f） { * f = 0; } 这是在我想要的内核之前启动的，如下所示： int * dFlag = NULL; cudaMalloc（（void **）& dFlag，sizeof（int））; warmSt ..

发布时间：2017-03-04 13:29:56 cuda nvidia nvcc 其它硬件开发

复制到CUDA常量内存时，设备符号无效

我有一个应用程序的几个文件在图像处理。因为图像的行和列数在做一些图像处理算法时不会改变，我试图将这些值放在常量内存中。我的应用程式如下： Imageproc.cuh ... ... __constant__ int c_rows; __constant__ int c_cols; #ifdef __cplusplus extern“C” { #endif ..

发布时间：2017-03-04 13:27:47 cuda nvidia 其它硬件开发

Cuda错误：函数已在另一个.cu.obj文件中定义

我想编译一个有人送给我的cuda项目。虽然编译阶段通过，链接阶段失败。下面是错误的示例：错误298错误LNK2005：“int __cdecl compare_ints（void const *，void const *） “已经在3level_1.cu.obj decode_p4.cu.obj中定义的（？compare_ints @@ YAHPBX0 @ Z）基本上，文 ..

发布时间：2017-03-04 13:18:13 cuda gpu gpgpu nvidia gpu-programming 其它硬件开发

编译CPU的CUDA代码

我研究cuda 5.5，但我没有任何Nvidia GPU。在老版本的nvcc有一个标志--multicore来编译cuda代码为CPU。在新版本的nvcc，什么是选项？我在Linux上工作。感谢。解决方案工具包，因为至少CUDA 4.0不支持在没有GPU的情况下运行cuda代码的能力。如果你只是想编译代码，请参考此问题。如果您要运行CUDA 5.5编译的CU ..

发布时间：2017-03-04 13:08:53 cuda nvidia nvcc 其它硬件开发

如何获得cuda设备中的核心数？

我正在寻找一个函数来计算我的cuda设备的核心数。我知道每个微处理器都有特定的内核，而我的cuda设备有两个微处理器。我搜索了很多，找到一个属性函数来计算每个微处理器的内核数， 't。我使用下面的代码，但我仍然需要核心数量？ cuda 7.0 C visual studio 2013 代码： void printDevProp（cudaDeviceProp devP ..

发布时间：2017-03-04 12:57:48 c cuda nvidia 其它硬件开发

CUDA用于大矩阵的矩阵乘法

我有以下矩阵乘法代码，使用CUDA 3.2和VS 2008.实现。我在Windows服务器2008 r2企业上运行。我正在运行一个Nvidia GTX 480.以下代码适用于“宽度”（矩阵宽度）的值高达约2500左右。 int size = Width * Width * sizeof（float）; float * Md，* Nd，* Pd; cudaError_t err = ..

发布时间：2017-03-04 12:56:45 c cuda gpu nvidia gpu-programming 其它硬件开发

L2缓存在Kepler

L2缓存在引用的局部性方面如何在具有Kepler架构的GPU中工作？例如，如果线程访问全局内存中的地址，假设该地址的值不在L2缓存中，那么该值是如何缓存的？是时间吗？下面的图片来自NVIDIA白皮书。解决方案统一L2缓存引入了计算能力2.0和更高版本，并继续在Kepler架构上得到支持。所使用的缓存策略是LRU（最近最少使用），其主要目的是避免全局存储器带宽瓶颈。 GPU应用可 ..

发布时间：2017-03-04 12:51:12 caching cuda gpu nvidia 其它硬件开发

CUDA：每个多处理器和每个块的线程有多少线程？

我们有一个工作站安装了两个Nvidia Quadro FX 5800卡。运行deviceQuery CUDA示例显示每个多处理器（SM）的最大线程数为1024，而每个块的最大线程数为512. 由于只能执行一个块在每个SM一次，为什么最大线程/处理器是最大线程/块的两倍？我们如何利用每个SM的其他512个线程？设备1：“Quadro FX 5800” CUDA驱动程序版本/ Runt ..

发布时间：2017-03-04 12:43:40 cuda gpu gpgpu nvidia 其它硬件开发

从命令提示符编译CUDA时出错

我试图通过命令提示符在Windows 7上编译cuda测试程序我是这个命令： nvcc test.cu 但是我得到的是这个错误： nvcc fatal：在PATH中找不到编译器'cl.exe' 可能是什么原因导致此错误？解决方案包含“cl.exe”文件到您的路径环境变量。例如： C：\Program Files \ Mi ..

发布时间：2017-03-04 12:39:49 cuda nvidia 其它硬件开发

如何验证CuDNN安装？

我搜索了很多地方，但我得到的是如何安装它，而不是如何验证它是否已安装。我可以验证我的NVIDIA驱动程序安装，并且CUDA已安装，但我不知道如何验证CuDNN安装。帮助将非常感谢，谢谢！ PS。这是一个caffe实现。目前一切正常工作没有启用CuDNN。解决方案安装CuDNN只是将文件放入CUDA目录。您可以使用 cmake 来检查是否正确地指定了路由和CuDNN ..

发布时间：2017-03-04 12:38:35 cuda computer-vision nvidia caffe conv-neural-network 其它硬件开发

Cuda编译器不工作与GCC 4.5 +

我是Cuda的新人，我试图编译这个简单的 test_1.cu 文件： #include __global__ void kernel（void） { } int main（void） { kernel>>（）; printf（“Hello，World！\\\ ”）; return 0; } 使用： n ..

发布时间：2017-03-04 12:30:14 linux gcc ubuntu cuda nvidia 服务器开发

使用CUDA6.5 + MPI时，我必须使用MPS（MULTI-PROCESS SERVICE）吗？

由链接撰写： https://docs.nvidia.com/deploy/ pdf / CUDA_Multi_Process_Service_Overview.pdf 1.1。全部 1.1.1。 MPS 多进程服务（MPS）是CUDA应用程序编程接口（API）的另一种二进制兼容的实现。 MPS运行时体系结构旨在透明地将合作多进程CUDA应用程序（通常是MPI作业）启用 ..

发布时间：2017-03-04 12:29:23 cuda mpi gpgpu nvidia multi-gpu 其它硬件开发

当尝试使用板载iGPU和Nvidia分立卡时，CUDA失败。如何使用离散nvidia和集成（板载）intel gpu？

我最近有一些麻烦使我的电脑（ivybridge）使用板载的gpu（英特尔igpu HD4000）正常屏幕显示使用，而我运行我的 CUDA 程序计算在离散的Nvidia GT 640我在我的机器上。问题是，在iGPU显示下，CUDA将无法找到nvidia卡，并且nvidia驱动程序根本无法加载。请记住，在为显示设备使用nvidia windows驱动程序时，还有确认的问题（主要是并发），并 ..

发布时间：2017-03-04 12:26:18 cuda intel nvidia multi-gpu 其它硬件开发

CUDA - 在PCI-E上传输多少速度？

如果我将一个字节从CUDA内核传输到PCI-E到主机（零拷贝存储器），与传输200 MB这样的内容相比，它有多慢？我想知道，因为我知道，对于CUDA内核，通过PCI-E传输是慢的，是：如果我只传输一个字节或大量的数据，它会改变任何东西吗？或者由于存储器传输是在“大块”中执行的，因此传输单个字节对于传输200 MB是非常昂贵和无用的。解决方案希望这个pic解释一切。数据是通过CU ..

发布时间：2017-03-04 12:25:23 cuda nvidia pci-e 其它硬件开发

定时策略CUDA内核：优点和缺点？

当计算CUDA内核时，以下内容不工作，因为内核在执行时不会阻止CPU程序执行： start timer kernel>>（）; end timer （成功）定时CUDA内核的三种基本方法：（1）两个CUDA eventRecords。 float responseTime; // result will be i ..

发布时间：2017-03-04 12:25:12 cuda gpgpu nvidia code-timing 其它硬件开发

nvidia相关内容