其它硬件开发
我可以在单一PCIe总线上使用 GPUDirect v2 - 对等通讯吗?: 两个之间:移动nVidia Quadro K1100M 两个:移动nVidia GeForce GT 745M 解决方案 一般来说,如果你想知道两个GPU之间是否支持GPUDirect Peer ,您可以运行简单的P2P CUDA示例代码,或在您自己的代码中,您可以使用 cudaCanAccessPeer
..
我有一个CUDA内核在.cu文件和另一个CUDA内核到另一个.cu文件。我知道使用动态并行化我可以从父内核调用另一个CUDA内核,但我想知道是否有任何方式来做这个与一个子内核驻留到另一个.cu文件。 感谢 解决方案 可以。 关键是使用单独的编译与设备代码链接,这是可用nvcc 。由于使用动态并行性,这里真的没什么新鲜的。 这里有一个简单的例子: ch_kernel.
..
如何在内核中生成均匀分布的伪随机整数?据我所知,Curand Api允许使用泊松离散分布,但不一致。 解决方案 : 1)使用curand_uniform从均匀分布中获取随机浮点数,然后将其映射到整数区间: float randu_f = curand_uniform(& localState); randu_f * =(B-A + 0.999999); //你不应该使用(B
..
我试图在Mac OS X 10.7.5上安装cuda软件包与cabal。 haskell安装了haskell平台64位mac版本。 ghc版本为7.6.3,gcc版本为4.2。 > cabal install cuda 解析依赖项... [1 of 1]编译主(/var/folders/ng/h2hkycqd2q5g2hz42c47bt4w0000gn/T/cuda-0.5.1.1-
..
我基本上在寻找一种方法来同步来自设备内的流。我想避免使用cudaDeviceSynchronize(),因为它将序列化我想要同时使用流执行我的内核; 更详细的描述:我写了一个内核,即稳定的双共轭梯度求解器。我想使用流同时在不同的数据上使用这个内核。 这个内核使用cublas函数。它们是从内核中调用的。 解算器所需的一个操作是计算两个向量的点积。这可以通过cublasdot()来完
..
当我尝试在64位Windows 7上使用VS 2010在Debug 64位配置中构建我的项目时,我得到此错误以及其他两个错误。 错误:链接规范与math.h中的以前的“hypot”不兼容161 错误:链接规范与math.h中的以前的“hypotf”不兼容161 错误:函数“abs(long long)”已在math_functions.h中定义534 I在32位构建中
..
我遇到了以下问题。我想使用 nvprof gst_efficieny 和 gld_efficiency c $ c>。与cuda 5.0一起发布的文档告诉我,对于具有计算能力2.0-3.0的设备,使用以下公式生成这些文件: gld_efficiency = 100 * gld_requested_throughput / gld_throughput gst_efficiency
..
我通过从AoS转换为SoA方法来重构推力代码,以利用内存合并。为此,我有两个向量通过公共密钥减少,然后用于计算输出向量的值。 基本上: Oᵢ=Rᵢ/Sᵢ,其中Rᵢ和Sᵢ是用相同键减少的向量,Oᵢ是相应的输出向量。 下面是代码,尝试做: typedef tuple
..
GeForce GTX 690(来自像Zotac和EVGA这样的厂商)可以用于CUDA编程,就像特斯拉K10一样。 问题:GeForce GTX 690支持GPUDirect? 具体来说:如果我使用两个GTX 690卡,我会有4个GPU(每个卡内有两个GPU)。如果我将两个GTX 690卡连接到同一个PCIe交换机,GPUDirect在任何一对4个GPU之间的通信是否工作良好? 谢谢
..
我刚刚使用Visual Studio 2010,因为我习惯用nvcc编译我的CUDA代码,使用Linux作为操作系统。顺便说一下,在这个和NVIDIA开发人员论坛的一些帖子,我已经阅读警告正确编译在Visual Studio(调试/发布模式,请参阅 问题是: 1)如何从“调试”模式切换到“释放”模式?是否足够使用属性 - >配置属性并选择“释放”而不是“活动(调试)”?此外,我注意到,
..
我想在Cuda中实现一个Metropolis-Hastings算法。对于这种算法,我需要能够生成许多具有变化范围的均匀随机数。因此,我想有一个名为runif(min,max)的函数,该函数在此范围内返回一个均匀分布的数字。此函数必须在实际实现算法的另一个函数内调用多次。 基于这个,我试图把那里显示的代码放入一个函数(见下文)。如果我理解这正确,同样的状态导致相同的数字序列。所以,如果状态不改
..
这个问题出现时,我尝试导入theano与gpu模式。当导入theano时,它试图编译一些代码,使其共享库并尝试加载它。 以下是生成so文件的命令。 nvcc -shared -O3 -m64 -Xcompiler -DCUDA_NDARRAY_CUH = mc72d035fdf91890f3b36710688069b2e,\ -DNPY_NO_DEPRECATED_API = NPY
..
任何人都可以告诉我在CUDA内核下面的代码有什么问题: __ constant__ unsigned char MT [256] { 0xde,0x6f,0x6f,0xb1,0xde,0x6f,0x6f,0xb1,0x91,0xc5,0xc5,0x54,0x91,0xc5,0xc5,0x54,...} typedef unsinged int U32; __global_
..
我在使用GTX Titan X(GM 200)的基于Xeon的系统上使用CUDA 8.0。它工作正常,但 - 我得到长的开销相比,我的弱GTX 600系列卡在家里。具体来说,当我发现一个调用 cudaGetCacheConfig()始终使用CUDA运行时API的时间不可思议的时间:530-560毫秒,或超过0.5秒。这,虽然其他调用不采取同样多。例如, cuDeviceGetTotalMem 花费
..
我运行的是Ubuntu 11.10服务器,CUDA-5.0和GTX480。我试图在Windows 8上使用Xming和Cygwin / X远程运行可视化分析器。我可以成功运行xclocks,但是当我尝试从putty命令行启动/usr/local/cuda-5.0/bin/nvvp时,它只是默默退出,没有任何错误或警告。 我安装了Cygwin / X的默认配置与xorg-server,xini
..
我在Mac OS 10.6上使用Xcode 3.2构建一个非常简单的HelloWorld程序CUDA ,但它无法构建..任何想法! 这是代码: #include #include #include #include #include __de
..
我有一个简单的内核,其中我使用malloc分配一些空间,简单如下: __ global__ void chainKernel (){ float * __restrict__ boo =(float *)malloc(sizeof(float)); * boo = 0; * boo = * boo + 100; return; } 如果我在 * boo = *
..
我有一个共享内存数组,初始化如下 #define UNDEFINED 0xffffffff #define DEFINED 0xfffffffe __shared__ unsigned int array [100]; __shared__ count; //我们有足够的线程:blockDim.x> 100 array [threadIdx.x] = UNDEF
..
我遇到了此问题中讨论的GTX 1080卡和nvidia-docker的“首次运行缓慢”问题>。 我使用的是来自其官方pip包和基于nvidia-docker的Ubuntu 16.04基本映像的自定义docker镜像。 如何使TensorFlow在Dockerfile中以编程方式加载(和构建JIT缓存)所有注册的CUDA内核? (而不是使用 TF_CUDA_COMPUTE_CAPABIL
..
我知道 nvidia-smi -l 1 会每秒钟提供GPU使用率(类似于以下内容)。然而,我将不胜感激的解释了什么易失性GPU-Util 真的意味着。 + ------是否使用的SM数量超过总SM数量或占用率? -------------------------------------------------- --------------------- + | NVIDIA-SMI
..