cuda相关内容

CUDA 编译器产生非最优的汇编器

我已经编译了流动的简单测试内核(CUDA5,sm2.0): __device__ void TestKernel(int *pdata){整数a0,b0,c0;a0 = pdata[0];b0 = pdata[1];c0 = a0 + b0;pdata[2] = c0;} 并期待像流动汇编器这样的东西: LD R3,[R0]LD R4,[R0+4]IADD R4,R4,R3ST [R0+8] ..
发布时间:2022-01-10 16:07:05 其他开发

简单的 CUDA 推力程序错误

我只是写了一个简单的 CUDA Thrust 程序,但是当我运行它时.我收到了这个错误:thrust::system::system_error at position 0x0037f99c . 谁能帮我弄清楚为什么会这样? #include#include#include使用命 ..
发布时间:2022-01-10 16:06:39 其他开发

Cuda 编译器不适用于 GCC 4.5 +

我是 Cuda 的新手,我正在尝试编译这个简单的 test_1.cu 文件: #include __global__ 无效内核(无效){}int 主要(无效){内核>>();printf("你好,世界!\n");返回0;} 使用这个:nvcc test_1.cu 我得到的输出是: 在/usr/local/cuda/bin/../include/cuda_ ..
发布时间:2022-01-10 16:06:29 服务器开发

CUDA 结构对齐正在减慢我的代码(可编译示例)

我有一个模拟,可以计算在电场和磁场中移动的带电粒子的 3D 矢量.我试图在 CUDA 中使用 __align__ 说明符 来加快这一速度,认为可能限制因素是全局内存读写,但使用 __align__ 最终减慢了速度(可能是因为它增加了总内存需求).我也尝试使用 float3 和 float4 但它们的性能相似 我创建了此代码的简化版本并将其粘贴在下面以显示我的问题.下面的代码应该是可编译的,并 ..
发布时间:2022-01-10 16:06:20 其他开发

cuModuleLoad 期间的 CUDA_ERROR_INVALID_IMAGE

我创建了一个非常简单的内核(可以在 here 找到),我已成功编译使用 "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.5\bin\nvcc.exe" --cl-version 2012 -ccbin "C:\Program Files (x86)\Microsoft VisualStudio 11.0\VC\bin" -I"C:\P ..
发布时间:2022-01-10 16:06:13 其他开发

CUDA:Nsight VS2010 profile __device__ 函数

我想知道如何使用 Visual Studio 2010 上的 Nsight 2.2 分析 __global__ 函数内部的 __device__ 函数.我需要知道哪个函数正在消耗大量的资源和时间.我在 CC 2.0 上有 CUDA 5.0. 解决方案 Nsight Visual Studio Edition 3.0 CUDA Profiler 引入了源相关实验.Profile CUDA A ..
发布时间:2022-01-10 16:05:55 其他开发

跨 I/O 集线器的 CUDA 点对点

是否存在 SBIOS 条目或其他配置更改,使点对点能够跨连接 I/O 集线器(或套接字,如果 CPU 集成了 I/O 集线器)的 QPI 链路为 CUDA 工作- Sandy Bridge 或更高)? 解决方案 没有.QPI 链路的协议并未完全涵盖 PCIE 协议的所有特性,尤其是 P2P 协议使用的某些特性. 英特尔数据表中记录了具体差异 这里. “IOH 不支持从 PCI ..
发布时间:2022-01-10 16:05:46 其他开发

cuda 无限内核

我正在开发一个需要无限期运行 CUDA 内核的应用程序.我有一个 CPU 线程将 stg 写入列表,而 gpu 读取该列表并重置(至少在开始时).当我在内核中写代码时 while(true){//内核代码} 系统挂断.我知道 GPU 仍在处理,但当然没有任何反应.而且我不确定列表中的重置是否会发生. 不得不提的是,用于计算的GPU不用于显示,所以没有看门狗问题. 操作系统是 Ubu ..
发布时间:2022-01-10 16:05:16 其他开发

错误:标识符“atomicAdd";在visual studio 2010 & 下未定义带有 Fermi GPU 的 cuda 4.2

我试图在 Visual Studio 2010 下使用 CUDA 4.2 编译一些 CUDA 代码(我使用 Parallel Nsight 2.2 创建了这个 CUDA 项目),但我遇到了一个原子问题“错误:标识符“atomicAdd"未定义",我仍然查了几个论坛都解决不了. 所以我尝试从 CUDA SDK 示例中获取一些信息.首先,我在 CUDA SDK 中运行了 simpleAtomic ..
发布时间:2022-01-10 16:04:50 其他开发

pytorch 安装中的 CUDA HOME

我通过 conda 和 cuda 7.5 安装了 pytorch conda install pytorch=0.3.0 cuda75 -c pytorch>>>进口火炬>>>torch.cuda.is_available()真的 除此之外我没有为 cuda 进行任何其他安装,因为它看起来像 pytorch 带有 cuda 现在,我正在尝试设置 yolo2 https://github. ..
发布时间:2022-01-10 16:04:40 其他开发

具有整数参数的 CUDA pow 函数

我是 CUDA 的新手,不明白我做错了什么. 我正在尝试计算它在数组中具有 id 的对象的距离、数组中的轴 x 和数组中的轴 y 以查找每个对象的邻居 __global__void dist(int *id_d, int *x_d, int *y_d,int *dist_dev, int dimBlock, int i){int idx = threadIdx.x + blockIdx.x ..
发布时间:2022-01-10 16:04:25 其他开发

尝试同时使用板载 iGPU 和 Nvidia 独立卡时,CUDA 失败.我如何同时使用离散的 nvidia 和集成(板载)intel gpu?

我最近在让我的电脑 (ivybridge) 使用板载 gpu (intel igpu HD4000) 进行正常屏幕显示使用时遇到了一些麻烦,而我在离散的 Nvidia GT 640 上运行我的 CUDA 程序进行计算我在我的机器上.问题是在 iGPU 显示下,CUDA 将无法识别 nvidia 卡,并且根本无法加载 nvidia 驱动程序. 请记住,在为显示设备使用 nvidia windo ..
发布时间:2022-01-10 16:04:01 其他开发

在 cuda 中添加 char 数组

我正在尝试在 cuda 中添加 2 个字符数组,但没有任何效果.我尝试使用: char temp[32];strcpy(temp, my_array);strcat(temp, my_array_2); 当我在内核中使用它时 - 我收到 error : Calling a __host__ function("strcpy") from a __global__ function("Proce ..
发布时间:2022-01-10 16:03:55 其他开发