其它硬件开发第19页 - IT屋-程序员软件开发技术分享社区

如何下载最新版本的GPU计算SDK？

我想下载最新版本的GPU计算SDK，它与我所使用的系统兼容。 CUDA驱动程序和运行时版本是4.10，但我找不到链接。我可以找到的CUDA工具包，这不是我想要的。任何人可以通过发送一个直接链接给我帮助我吗？感谢..... 解决方案 CUDA 4.1是最新的CUDA版本。此版本的GPU计算SDK可以在此页面底部找到： http：// developer。 nvidia.com/cuda-to ..

发布时间：2017-03-04 16:20:43 cuda 其它硬件开发

CUDA NSight在Windows 8上未与CUDA 5.0安装文件一起安装？

我看到Nsight Eclipse在Nvidia网站上没有下载链接，它说它将由CUDA 5安装本机安装。但是它没有与CUDA安装一起安装。是否有任何一个人也有这个问题，是否有任何其他外部链接单独安装Nsight Eclipse？解决方案没有这样的东西Nsight Eclipse版的Windows。在Windows平台上，Nsight与Visual Studio集成（需要Micr ..

发布时间：2017-03-04 16:19:44 windows cuda installation 其它硬件开发

从CUDA代码创建mex文件

我有Windows XP 64位，MATLAB R2012a（R2010a也可以在这里，但没有安装），VS 2010（VS 2008 / VS 2012也可以，但没有安装）和CUDA 5.0安装.. 是否可以在MATLAB中使用这些代码编译CUDA代码来创建一个mex文件？提前感谢解决方案使用MATLAB 2013 如果您可以升级到2013年，否则请转到页面底部以获 ..

发布时间：2017-03-04 16:19:31 matlab cuda mex 其它硬件开发

如何估计基于推力的实现的GPU内存需求？

我有3个不同的基于推力的实现，执行某些计算：第一是最慢，需要最少的GPU内存，第二是最快，需要最大的GPU内存，第三个是中间。对于每个人，我知道每个设备向量使用的大小和数据类型，所以我使用vector.size（）* sizeof（type）粗略估计存储需要的内存。所以对于给定的输入，基于其大小，我想决定使用哪个实现。换句话说，确定最适合的实现是在可用的GPU内存中。我认为对于我处 ..

发布时间：2017-03-04 16:18:45 cuda thrust 其它硬件开发

在global函数中使用CUDA数学函数 - Nsight Eclipse Edition

我试图在__global__函数中使用数学函数（pow），但我遇到这个错误：不允许__global__函数的__host__函数（“std :: pow”）我试图检查“使用快速数学库”复选框在项目属性 - >构建 - >设置 - >工具设置 - >优化和没有运气。我检查了pow函数内的类型，并且都是浮点数，我还包括这些头文件： ..

发布时间：2017-03-04 16:17:40 cuda 其它硬件开发

CUDA Thrust库中counting_iterators的用途和用法

我无法理解CUDA的推力库中的 counting_iterator 。它的目的是什么，如何使用？计数迭代器只是一个迭代器，它返回下一个值，并返回一个值。每次迭代器递增时提前的序列。最简单的例子是这样的： #include #include int main（void） { ..

发布时间：2017-03-04 16:17:14 cuda iterator thrust 其它硬件开发

CUDA代码会损坏GPU吗？

在测试包含内存错误的一块CUDA时，我的屏幕被冻结。重新启动后，我无法再检测到显卡。我的代码是否有可能损坏卡？这发生在Ubuntu 14.04下。我不知道卡的模型，因为我不能检测到它，但我记得它是一个相当新的。解决方案感谢所有的意见，我解决了这个问题。我将列出我承诺的操作。我不知道他们是否都有效果，但最终问题解决了。首先我断开了显卡，没有它重新启动。之后，我再次 ..

发布时间：2017-03-04 16:16:35 cuda nvidia 其它硬件开发

流多处理器，核心每流处理器在cuda

与不同的nvidia图形卡集合，它具有不同的规格，具有不同数量的流多处理器和每个处理器在每个流处理器中具有不同数量的核。根据设备的容量，线程块被分配给单个处理器，如 1块32个经线或2个16个线程块。但我可以不了解每个流处理器中的核心数。每个流处理器中具有更大数量核心的设备的重要性我想我们需要更好地利用设备属性更好的优化实际上cuda程序如何在设备中与流处理器和 ..

发布时间：2017-03-04 16:15:35 optimization cuda 其它硬件开发

在内核调用中使用断言

在设备模式的内核调用中使用断言有很方便的方法吗？先感谢。解决方案 #define MYASSERT（condition）\ if（！ } MYASSERT（condition）; 如果你需要某些东西，你可以使用 cuPrintf（），可从注册开发人员的CUDA网站获取。 ..

发布时间：2017-03-04 16:15:10 cuda assert assertions 其它硬件开发

固定内存OpenCL，有人成功使用它吗？

我用 clCreateBuffer 调用使用 CL_MEM_ALLOC_HOST_PTR 标志，但Compute Profiler显示所有我的“主机内存传输类型“为Pageable。我尝试在两个不同的内核设置，但分析器不会显示我正在使用固定的内存。这是真的随机当一个内核使用pinned记忆？它是否受到某些东西的限制？我猜的缓冲区大小的事情。我试了一个大小为10000浮点的缓冲区，我还有pa ..

发布时间：2017-03-04 16:13:51 memory cuda opencl allocation pinning 其它硬件开发

简单的CUDA程序执行没有GPU硬件使用NVIDIA GPU计算SDK 4.0和microsoft VC ++ 2010 express

我是GPU计算的新手，但在某个地方我读过，可以使用模拟器/模拟器执行CUDA程序，没有GPU卡。我在Windows Vista上安装了NVIDIA的GPU Computing SDK 4.0和Visual C ++ 2010 Express。我想知道：使用NVIDA的Computing SDK 4.0是否可以运行没有GPU的CUDA代码和Visual C ++ 2010 express？ ..

发布时间：2017-03-04 16:13:09 cuda gpu gpgpu gpu-programming 其它硬件开发

多GPU使用与CUDA Thrust

我想使用我的两张图形卡来计算CUDA Thrust。我有两张显卡。在单个卡上运行对于两个卡都很好，即使我在std :: vector中存储了两个device_vectors。如果我同时使用两个卡，循环的第一个循环工作，不会导致错误。第一次运行后会导致错误，可能是因为设备指针无效。我不知道确切的问题是什么，或者如何使用这两个卡进行计算。最小代码示例： std ..

发布时间：2017-03-04 16:12:23 cuda gpu gpgpu thrust 其它硬件开发

使用GPU加速的arrayfun中的匿名函数（Matlab）

我是来自Matlab R2012b的Parallel工具箱的新手，想知道最好的方法是克服以下问题。我正在分析每个像素的邻域在图像中。这是并行化的极好的情况。但是，我似乎无法使它工作。问题的主要原因是一些“常量”参数应该传递给函数。所以函数应该为每个像素调用，但是，它还需要访问周围的像素。（最好通过将图像作为某种常数参数和要分析的像素的坐标进行传递）。每个像素输出一个值。 ..

发布时间：2017-03-04 16:11:57 matlab cuda gpu anonymous-function 其它硬件开发

挣扎与直觉关于扭曲同步线程执行工作

我是CUDA的新用户。我正在工作基本的并行算法，如还原，以了解线程执行是如何工作的。我有以下代码： __ global__ void Reduction2_kernel（int * out，const int * in，size_t N） { extern __shared__ int sPartials []; int sum = 0; const int tid = ..

发布时间：2017-03-04 16:11:21 cuda parallel-processing gpu reduction 其它硬件开发

使用QuasirandomGenerator（用于虚拟）

我是一个新的CUDA和我努力在我的内核生成随机数。我知道有不同的实现，而且在SDK 4.1中有一个Niederreiter序列生成器的例子。我不知道从哪里开始...我有点伤心，感觉像一个假人... 请简单和蠢的例子使用Niederreiter Quasirandom序列生成器（SKD代码示例）？我真的apreciate它。例如，创建一个向量并用随机数填充它（每个线程填充一 ..

发布时间：2017-03-04 16:10:57 random cuda numbers generator 其它硬件开发

Cholesky分解与CUDA

我试图使用cuSOLVER库实现Cholesky分解。我是一个初学者CUDA程序员，我一直指定块大小和网格大小，但我不能找出这可以由程序员用cuSOLVER函数显式地设置。以下是文档： http://docs.nvidia.com /cuda/cusolver/index.html#introduction QR分解是使用cuSOLVER库实现的（请参阅此处的示例： http://d ..

发布时间：2017-03-04 16:10:07 cuda gpu nvidia gpu-programming cusolver 其它硬件开发

CUDA内核调用的参数超过256字节的想法

我有两个结构，总计超过256个字节的大小允许作为参数传递到内核调用。这两个结构已经被分配和复制 1）如何在这些结构的同一内核中使用，而不作为参数传递？更多详情。单独地，这些结构可以作为参数传递。例如，在不同的内核中。但是： 2）如何在同一个内核中使用这两个结构？解决方案正如罗伯特·克罗维拉在他的评论中建议的，你应该能够传递一个指针到这些区域。我在opencl中 ..

发布时间：2017-03-04 16:09:50 memory-management parameters cuda gpgpu 其它硬件开发

我尝试使用MSVS2012，CUDA5.5，Thrust 1.7编译此代码： #include #include #include #include ..

发布时间：2017-03-04 16:09:38 cuda gpgpu nvidia thrust 其它硬件开发

如何编译cuda内核没有优化？

如果我编译这个 __ global__ void dummy_kernel（float * a，int N，float * b，int N2）{ unsigned int i = blockIdx.y * blockDim.y + threadIdx.y; unsigned int j = blockIdx.x * blockDim.x + threadIdx.x; } ..

发布时间：2017-03-04 16:09:12 cuda gpgpu 其它硬件开发

优化具有非均匀节点的CUDA内核插值

ORIGINAL QUESTION 我有以下内核对非统一节点执行插值，我想优化它： p> __ global__无效插值（cufftDoubleComplex * Uj，double * points，cufftDoubleComplex * result，int N，int M） { int i = threadIdx.x + blockDim.x * blockIdx.x; ..

发布时间：2017-03-04 16:08:59 cuda interpolation 其它硬件开发