其它硬件开发第12页 - IT屋-程序员软件开发技术分享社区

我可以在两个Quadro K1100M或两个GeForce GT 745M之间使用GPUDirect v2对等通信吗？

我可以在单一PCIe总线上使用 GPUDirect v2 - 对等通讯吗？：两个之间：移动nVidia Quadro K1100M 两个：移动nVidia GeForce GT 745M 解决方案一般来说，如果你想知道两个GPU之间是否支持GPUDirect Peer ，您可以运行简单的P2P CUDA示例代码，或在您自己的代码中，您可以使用 cudaCanAccessPeer ..

发布时间：2017-03-05 19:05:23 cuda gpgpu nvidia 其它硬件开发

CUDA - 链接内核在一起

我有一个CUDA内核在.cu文件和另一个CUDA内核到另一个.cu文件。我知道使用动态并行化我可以从父内核调用另一个CUDA内核，但我想知道是否有任何方式来做这个与一个子内核驻留到另一个.cu文件。感谢解决方案可以。关键是使用单独的编译与设备代码链接，这是可用nvcc 。由于使用动态并行性，这里真的没什么新鲜的。这里有一个简单的例子： ch_kernel. ..

发布时间：2017-03-05 19:05:05 cuda kernel nvidia nvcc 其它硬件开发

在CUDA内核中的均匀分布的伪随机整数

如何在内核中生成均匀分布的伪随机整数？据我所知，Curand Api允许使用泊松离散分布，但不一致。解决方案： 1）使用curand_uniform从均匀分布中获取随机浮点数，然后将其映射到整数区间： float randu_f = curand_uniform（& localState）; randu_f * =（B-A + 0.999999）; //你不应该使用（B ..

发布时间：2017-03-05 19:04:53 cuda 其它硬件开发

在Mac OS X 10.7.5中安装cuda模块时出错（检查C编译器是否工作... no）

我试图在Mac OS X 10.7.5上安装cuda软件包与cabal。 haskell安装了haskell平台64位mac版本。 ghc版本为7.6.3，gcc版本为4.2。 > cabal install cuda 解析依赖项... [1 of 1]编译主（/var/folders/ng/h2hkycqd2q5g2hz42c47bt4w0000gn/T/cuda-0.5.1.1- ..

发布时间：2017-03-05 19:04:35 haskell gcc cuda cabal 其它硬件开发

CUDA动态平行流同步从设备

我基本上在寻找一种方法来同步来自设备内的流。我想避免使用cudaDeviceSynchronize（），因为它将序列化我想要同时使用流执行我的内核; 更详细的描述：我写了一个内核，即稳定的双共轭梯度求解器。我想使用流同时在不同的数据上使用这个内核。这个内核使用cublas函数。它们是从内核中调用的。解算器所需的一个操作是计算两个向量的点积。这可以通过cublasdot（）来完 ..

发布时间：2017-03-05 19:04:23 cuda cublas 其它硬件开发

VS2010编译器和cuda错误：链接规范与先前的“hypot”不兼容。

当我尝试在64位Windows 7上使用VS 2010在Debug 64位配置中构建我的项目时，我得到此错误以及其他两个错误。错误：链接规范与math.h中的以前的“hypot”不兼容161 错误：链接规范与math.h中的以前的“hypotf”不兼容161 错误：函数“abs（long long）”已在math_functions.h中定义534 I在32位构建中 ..

发布时间：2017-03-05 19:02:49 cuda nvcc 其它硬件开发

使用nvprof计算gst_throughput和gld_throughput

我遇到了以下问题。我想使用 nvprof gst_efficieny 和 gld_efficiency c $ c>。与cuda 5.0一起发布的文档告诉我，对于具有计算能力2.0-3.0的设备，使用以下公式生成这些文件： gld_efficiency = 100 * gld_requested_throughput / gld_throughput gst_efficiency ..

发布时间：2017-03-05 19:02:37 cuda profiler 其它硬件开发

从reduce_by_key（）输出作为两个缩减矢量的函数

我通过从AoS转换为SoA方法来重构推力代码，以利用内存合并。为此，我有两个向量通过公共密钥减少，然后用于计算输出向量的值。基本上： Oᵢ=Rᵢ/Sᵢ，其中Rᵢ和Sᵢ是用相同键减少的向量，Oᵢ是相应的输出向量。下面是代码，尝试做： typedef tuple ..

发布时间：2017-03-05 19:02:20 cuda thrust 其它硬件开发

CUDA：GPUDirect在GeForce GTX 690上

GeForce GTX 690（来自像Zotac和EVGA这样的厂商）可以用于CUDA编程，就像特斯拉K10一样。问题：GeForce GTX 690支持GPUDirect？具体来说：如果我使用两个GTX 690卡，我会有4个GPU（每个卡内有两个GPU）。如果我将两个GTX 690卡连接到同一个PCIe交换机，GPUDirect在任何一对4个GPU之间的通信是否工作良好？谢谢 ..

发布时间：2017-03-05 19:01:42 cuda nvidia 其它硬件开发

Visual Studio 2010中的NVIDIA Visual Profiler，调试和发布模式

我刚刚使用Visual Studio 2010，因为我习惯用nvcc编译我的CUDA代码，使用Linux作为操作系统。顺便说一下，在这个和NVIDIA开发人员论坛的一些帖子，我已经阅读警告正确编译在Visual Studio（调试/发布模式，请参阅问题是： 1）如何从“调试”模式切换到“释放”模式？是否足够使用属性 - >配置属性并选择“释放”而不是“活动（调试）”？此外，我注意到， ..

发布时间：2017-03-05 19:01:25 visual-studio-2010 cuda 其它硬件开发

runif函数

我想在Cuda中实现一个Metropolis-Hastings算法。对于这种算法，我需要能够生成许多具有变化范围的均匀随机数。因此，我想有一个名为runif（min，max）的函数，该函数在此范围内返回一个均匀分布的数字。此函数必须在实际实现算法的另一个函数内调用多次。基于这个，我试图把那里显示的代码放入一个函数（见下文）。如果我理解这正确，同样的状态导致相同的数字序列。所以，如果状态不改 ..

发布时间：2017-03-05 19:00:40 random cuda distribution 其它硬件开发

nvcc选择错误的libcudart库

这个问题出现时，我尝试导入theano与gpu模式。当导入theano时，它试图编译一些代码，使其共享库并尝试加载它。以下是生成so文件的命令。 nvcc -shared -O3 -m64 -Xcompiler -DCUDA_NDARRAY_CUH = mc72d035fdf91890f3b36710688069b2e，\ -DNPY_NO_DEPRECATED_API = NPY ..

发布时间：2017-03-05 19:00:06 cuda linker linker-error loader nvcc 其它硬件开发

CUDA中的未对齐地址

任何人都可以告诉我在CUDA内核下面的代码有什么问题： __ constant__ unsigned char MT [256] { 0xde，0x6f，0x6f，0xb1，0xde，0x6f，0x6f，0xb1,0x91,0xc5,0xc5,0x54,0x91,0xc5,0xc5,0x54，...} typedef unsinged int U32; __global_ ..

发布时间：2017-03-05 18:58:13 cuda alignment gpu gpgpu nvidia 其它硬件开发

cudaGetCacheConfig需要0.5秒 - 如何/为什么？

我在使用GTX Titan X（GM 200）的基于Xeon的系统上使用CUDA 8.0。它工作正常，但 - 我得到长的开销相比，我的弱GTX 600系列卡在家里。具体来说，当我发现一个调用 cudaGetCacheConfig（）始终使用CUDA运行时API的时间不可思议的时间：530-560毫秒，或超过0.5秒。这，虽然其他调用不采取同样多。例如， cuDeviceGetTotalMem 花费 ..

发布时间：2017-03-05 18:57:48 cuda nvidia 其它硬件开发

CUDA Visual分析器通过远程X会话

我运行的是Ubuntu 11.10服务器，CUDA-5.0和GTX480。我试图在Windows 8上使用Xming和Cygwin / X远程运行可视化分析器。我可以成功运行xclocks，但是当我尝试从putty命令行启动/usr/local/cuda-5.0/bin/nvvp时，它只是默默退出，没有任何错误或警告。我安装了Cygwin / X的默认配置与xorg-server，xini ..

发布时间：2017-03-05 18:57:29 cuda nvvp 其它硬件开发

无法使用Xcode构建一个简单的Cuda程序！

我在Mac OS 10.6上使用Xcode 3.2构建一个非常简单的HelloWorld程序CUDA ，但它无法构建..任何想法！这是代码： #include #include #include #include #include __de ..

发布时间：2017-03-05 18:56:54 xcode osx operating-system cuda 其它硬件开发

CUDA调试与VS - 不能检查restrict指针（操作无效）

我有一个简单的内核，其中我使用malloc分配一些空间，简单如下： __ global__ void chainKernel （）{ float * __restrict__ boo =（float *）malloc（sizeof（float））; * boo = 0; * boo = * boo + 100; return; } 如果我在 * boo = * ..

发布时间：2017-03-05 18:56:41 cuda nsight 其它硬件开发

如何同时写入和读取具有唯一递增值的CUDA数组？

我有一个共享内存数组，初始化如下 #define UNDEFINED 0xffffffff #define DEFINED 0xfffffffe __shared__ unsigned int array [100]; __shared__ count; //我们有足够的线程：blockDim.x> 100 array [threadIdx.x] = UNDEF ..

发布时间：2017-03-05 18:56:26 cuda 其它硬件开发

如何以编程方式为TensorFlow中的所有可用内核构建CUDA JIT高速缓存？

我遇到了此问题中讨论的GTX 1080卡和nvidia-docker的“首次运行缓慢”问题>。我使用的是来自其官方pip包和基于nvidia-docker的Ubuntu 16.04基本映像的自定义docker镜像。如何使TensorFlow在Dockerfile中以编程方式加载（和构建JIT缓存）所有注册的CUDA内核？（而不是使用 TF_CUDA_COMPUTE_CAPABIL ..

发布时间：2017-03-05 18:56:14 cuda tensorflow nvidia 其它硬件开发

nvidia-smi挥发性GPU利用率解释？

我知道 nvidia-smi -l 1 会每秒钟提供GPU使用率（类似于以下内容）。然而，我将不胜感激的解释了什么易失性GPU-Util 真的意味着。 + ------是否使用的SM数量超过总SM数量或占用率？ -------------------------------------------------- --------------------- + | NVIDIA-SMI ..

发布时间：2017-03-05 18:55:43 cuda gpu nvidia gpgpu gpu-programming 其它硬件开发