cuda相关内容
链接是这样写的:https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf 1.1.概览 1.1.1.MPS 多进程服务 (MPS) 是一种替代的、二进制兼容的CUDA 应用程序编程接口 (API) 的实现.MPS 运行时架构旨在透明地启用协作多进程 CUDA 应用程序,通常是 MPI 作业
..
我已经编译了流动的简单测试内核(CUDA5,sm2.0): __device__ void TestKernel(int *pdata){整数a0,b0,c0;a0 = pdata[0];b0 = pdata[1];c0 = a0 + b0;pdata[2] = c0;} 并期待像流动汇编器这样的东西: LD R3,[R0]LD R4,[R0+4]IADD R4,R4,R3ST [R0+8]
..
..
在阅读了 CUDA 9 中的合作组之后,我一直在尝试在网格级别进行同步. 我正在使用 Visual Studio 2017、GTX 1060 和 CUDA 9.1. 我修改了我的代码如下: __global__ void ExplicitKernel_American(/* ... */) {int i = threadIdx.x + blockDim.x * blockIdx.x;
..
我只是写了一个简单的 CUDA Thrust 程序,但是当我运行它时.我收到了这个错误:thrust::system::system_error at position 0x0037f99c . 谁能帮我弄清楚为什么会这样? #include#include#include使用命
..
我是 Cuda 的新手,我正在尝试编译这个简单的 test_1.cu 文件: #include __global__ 无效内核(无效){}int 主要(无效){内核>>();printf("你好,世界!\n");返回0;} 使用这个:nvcc test_1.cu 我得到的输出是: 在/usr/local/cuda/bin/../include/cuda_
..
我有一个模拟,可以计算在电场和磁场中移动的带电粒子的 3D 矢量.我试图在 CUDA 中使用 __align__ 说明符 来加快这一速度,认为可能限制因素是全局内存读写,但使用 __align__ 最终减慢了速度(可能是因为它增加了总内存需求).我也尝试使用 float3 和 float4 但它们的性能相似 我创建了此代码的简化版本并将其粘贴在下面以显示我的问题.下面的代码应该是可编译的,并
..
我创建了一个非常简单的内核(可以在 here 找到),我已成功编译使用 "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.5\bin\nvcc.exe" --cl-version 2012 -ccbin "C:\Program Files (x86)\Microsoft VisualStudio 11.0\VC\bin" -I"C:\P
..
我想知道如何使用 Visual Studio 2010 上的 Nsight 2.2 分析 __global__ 函数内部的 __device__ 函数.我需要知道哪个函数正在消耗大量的资源和时间.我在 CC 2.0 上有 CUDA 5.0. 解决方案 Nsight Visual Studio Edition 3.0 CUDA Profiler 引入了源相关实验.Profile CUDA A
..
是否存在 SBIOS 条目或其他配置更改,使点对点能够跨连接 I/O 集线器(或套接字,如果 CPU 集成了 I/O 集线器)的 QPI 链路为 CUDA 工作- Sandy Bridge 或更高)? 解决方案 没有.QPI 链路的协议并未完全涵盖 PCIE 协议的所有特性,尤其是 P2P 协议使用的某些特性. 英特尔数据表中记录了具体差异 这里. “IOH 不支持从 PCI
..
我正在开发一个需要无限期运行 CUDA 内核的应用程序.我有一个 CPU 线程将 stg 写入列表,而 gpu 读取该列表并重置(至少在开始时).当我在内核中写代码时 while(true){//内核代码} 系统挂断.我知道 GPU 仍在处理,但当然没有任何反应.而且我不确定列表中的重置是否会发生. 不得不提的是,用于计算的GPU不用于显示,所以没有看门狗问题. 操作系统是 Ubu
..
我在 Microsoft Visual Studio 2008 上使用 NVIDIA CUDA 4.1.我还安装了 Intel Parallel Studio XE 2011. 默认情况下,NVIDIA 的 C 编译器 nvcc.exe 使用微软的 C 编译器 cl.exe 来编译它的 C 代码. 如何更改设置以使 nvcc 使用 Intel 的 C 编译器 icl.exe. 解
..
我试图在 Visual Studio 2010 下使用 CUDA 4.2 编译一些 CUDA 代码(我使用 Parallel Nsight 2.2 创建了这个 CUDA 项目),但我遇到了一个原子问题“错误:标识符“atomicAdd"未定义",我仍然查了几个论坛都解决不了. 所以我尝试从 CUDA SDK 示例中获取一些信息.首先,我在 CUDA SDK 中运行了 simpleAtomic
..
我通过 conda 和 cuda 7.5 安装了 pytorch conda install pytorch=0.3.0 cuda75 -c pytorch>>>进口火炬>>>torch.cuda.is_available()真的 除此之外我没有为 cuda 进行任何其他安装,因为它看起来像 pytorch 带有 cuda 现在,我正在尝试设置 yolo2 https://github.
..
我正在尝试在 __global__ 函数中使用数学函数 (pow),但出现此错误: 不允许从 __global__ 函数调用 __host__ 函数("std::pow 我检查了 pow 函数中的类型,它们都是浮点数,我还包含了这些头文件: #include #include #include #include #
..
我是 CUDA 的新手,不明白我做错了什么. 我正在尝试计算它在数组中具有 id 的对象的距离、数组中的轴 x 和数组中的轴 y 以查找每个对象的邻居 __global__void dist(int *id_d, int *x_d, int *y_d,int *dist_dev, int dimBlock, int i){int idx = threadIdx.x + blockIdx.x
..
我想从 Windows 命令行使用 nvcc -ptx,但我总是收到以下错误消息:nvcc:致命错误:在“C:\Program Files (x86)\Microsoft Visual S"中找不到安装 Microsoft Visual Studio 配置文件“vcvars64.bat"tudio 11.0\VC\bin/../..' 我使用的是 vs 2012 速成版.有什么解决办法?
..
当我尝试制作 CUDA 5.0 样本时,会出现错误: Makefile:79: * MPI 未找到,未构建 simpleMPI.. 停止. 我已尝试下载和构建最新版本的 Open MPI,参考 Open MPI "FAQ/Platforms/OS X/6.如何不使用 OS X 捆绑的 Open MPI?"页面并没有解决错误. make -j 4 2>&1 |tee make.out[
..
我最近在让我的电脑 (ivybridge) 使用板载 gpu (intel igpu HD4000) 进行正常屏幕显示使用时遇到了一些麻烦,而我在离散的 Nvidia GT 640 上运行我的 CUDA 程序进行计算我在我的机器上.问题是在 iGPU 显示下,CUDA 将无法识别 nvidia 卡,并且根本无法加载 nvidia 驱动程序. 请记住,在为显示设备使用 nvidia windo
..
我正在尝试在 cuda 中添加 2 个字符数组,但没有任何效果.我尝试使用: char temp[32];strcpy(temp, my_array);strcat(temp, my_array_2); 当我在内核中使用它时 - 我收到 error : Calling a __host__ function("strcpy") from a __global__ function("Proce
..