cuda相关内容

在本地存储阵列定义变量的大小,使用CUDA

是不是有点可能使一个列表,数组,一些在设备与列表/数组中的呼叫beeing一个参数的大小...或全局变量的在呼叫时初始化函数? 我想是这样,这些列表中的一个工作: unsigned int类型尺寸1;__device__ void函数(INT尺寸2){ INT LIST1 [尺寸1]; INT列表2 [尺寸2]; } 是否有可能做一些聪明的做出这样的工作? 解决方案 有 ..
发布时间:2016-06-01 20:19:59 其他开发

在结构指针传递给CUDA

我一直在瞎搞与这一段时间,但似乎无法得到它的权利。我试图复制包含数组到CUDA设备内存中的对象(和回来,但我会船到桥头时,我来到它): 结构迈德特{ 浮*数据; INT DATALEN; }无效copyToGPU(){ //创建虚拟对象进行复制 INT N = 10; 迈德特* h_items =新迈德特[N]; 的for(int i = 0; I< N;我++){ ..
发布时间:2016-06-01 19:59:42 其他开发

在CUDA内核嵌套

CUDA目前不允许嵌套的内核。 要具体,我有以下问题: 我有M维数据的N个。处理每个N个数据点的三内核需要在序列中运行。一直以来,仁嵌套是不允许的,我不能创建调用这三个内核的内核。因此,我必须串行处理每个数据点。 一个解决方法是写一个包含所有其他三个内核的功能的大内核,但我认为这将次优的。 任何人能否提供流如何可用于并行运行的N个数据点,同时保留了三个更小的内核。 感谢。 解决方案 ..
发布时间:2016-06-01 19:47:29 其他开发

加入CUDA字符数组

我想在CUDA加2字符数组,但没有什么工作。 我试图用 字符临时[32]; 的strcpy(温度,my_array); strcat的(温度,my_array_2); 当我用这个内核 - 我得到错误:调用从__global__函数(“过程”)一__host__功能(“strcpy的”)是不允许 在此之后,我试着在主机使用这些功能,而不是内核 - 没有错误,但加入后我收到奇怪的符号,比如Ķ ..
发布时间:2016-06-01 13:57:44 其他开发

GPU / CUDA:重新排序设备内存

我有存储在设备内存多维数组。我想“置换” /的”转“,也就是说,根据新的重新安排它的元素为了尺寸。 例如,如果我有一个二维数组 A = [0,1,2 3,4,5] 我想改变尺寸的顺序,所以我得到 B = [0,3 1,4 2,5] 这重新排序几乎副本存储在内存中的顺序 [0,1,2,3,4,5] 元素,并返回一个新的排序 [0,3,1,4,2,5] 。 ..
发布时间:2016-05-31 21:05:06 C/C++开发

在CUDA内核中搜索有序阵列

我正在写一个CUDA内核每个线程必须完成以下任务:假设我有一个有序阵列 A的 N code>无符号整数(第一个是始终为0)存储在共享内存,每个线程都有发现数组索引 I ,使得一个[I] ≤ threadIdx.x 和 A [I + 1] > threadIdx.x 。 一个天真的解决办法是: 为(i = 0; I< N - 1;我++) 如果(一个[I + 1]≥thread ..
发布时间:2016-05-31 20:00:55 其他开发

无效的参数错误时,从设备将数据复制到主机

我有我的设备的数据复制回主机的问题。我的数据布置在一个结构: typedef结构Array2D { 双* ARR; 诠释行; 诠释COLS; } Array2D; 改编是一个'平'的数组。 行和 COLS 描述的尺寸。 在code以下显示了如何在尝试将数据复制回主机: h_output =(Array2D *)malloc的(的sizeof(Array2D)); ..
发布时间:2016-05-31 19:58:15 其他开发

这有什么CUDA code返回此意外发生输出?

说完最后得到动态并行运行起来,我想现在执行它我的模型。我花了一段时间才能弄清楚,一些奇怪的输出是由于需要使用cud​​aDeviceSynchronize(),使内核家长等待孩子内核完成。 似乎有什么毛病我定义为arrAdd设备功能。下面是输出表前和K2父内核每个孩子的内核了。 最初:K1 = {-1 0 0 0 0} 帖子arrInit:TEMP = {0.25 0.25 0.25 0.25 ..
发布时间:2016-05-31 19:00:57 其他开发

在CUDA内核,我如何存储和QUOT阵列;本地线程内存和QUOT ;?

我试图发展与CUDA的小程序,但由于它是缓慢的我做了一些测试,并用Google搜索了一下。我发现,虽然单一变量是存储在本地线程内存中默认情况​​下,阵列通常不是。我想这就是为什么需要这么多的时间来执行。现在我不知道:因为本地线程的内存至少应为16KB和因为我的阵列就像是52个字符长,有什么办法(语法请:))将它们存储在本地内存 难道不应该是这样的: __ global__ my_kernel ..
发布时间:2016-05-30 22:55:29 其他开发

阵列结构VS在CUDA结构数组

从我这里看了一些评论,由于某种原因,它是preferable有阵列(SOA)以上(AOS)的结构像CUDA并行实现?如果这是真的谁都可以解释,为什么? 在此先感谢! 解决方案 与SOA AOS的选择以获得最佳性能通常取决于访问模式。这并不仅仅局限于但是CUDA - 类似的考虑也适用于任何架构,性能,可显著受内存访问模式,例如在这里你有缓存或者性能与连续的内存访问(例如合并的存储器访问CU ..
发布时间:2016-05-30 21:50:33 C/C++开发

CUDA:传递参数Nsight会议期间举办的编译器

我在Visual Studio 2010中运行的CUDA(V4.2)计划,而我通过各种命令行参数。我想主机编译器看到同样的参数时,我通过nsight(V2.2)运行。我想我已经通过(右键单击项目)要做到这一点 - > nsight用户设置 - >命令行参数,但还没有设法找到一个不崩溃NVCC语法。我假设它是围绕着“--run-ARGS”不知何故? **澄清,下面的评论后:当你直通VS调试 当然 ..
发布时间:2016-05-29 12:27:31 JavaScript

GPGPU VM的:任何开源项目到端口的虚拟机上的图形处理单元?

NVIDIA发布CUDA的API使开发人员能够利用自己的显卡,以大规模并行架构和矢量运算的优势。创建库如pyCUDA允许脚本语言的开发人员发送选定code到GPU。 和出现了越来越多的精力来设计多语种的虚拟机,如鹦鹉,像二郎强类型的并发友好的语言上。 所以我在想,是否有任何开源项目,code量身定制的虚拟机环境,让GPU的全部好处? 我会想象有运行大型脚本语言能够把所有的GPU优势强类型,m ..
发布时间:2016-05-28 11:22:26 其他开发

CUDA核心VS线程数

我对内核的一个NVIDIA GPU的数量,开关电源的数量,和最大线程数之间的关系混为一谈。我的笔记本电脑的GT650M设备属性显示384芯,2的SMP,每个SMP 1024个线程。 如何这些数字相互关联和经纱的大小?我认为(也许不正确地)有每个SMP 192核心,但是如果每个核心运行32个线程的经线,这不是1024的一个因素,我希望每个SMP 32 * 192线程,或2 ^ 5 *(2 ^ 7 ..
发布时间:2016-05-28 11:13:27 其他开发

我怎么能转换Npp8u *到的CUdeviceptr

我是新来的CUDA驱动程序API接口,但我认为的CUdeviceptr看起来像一个手柄parameter.So我感到困惑的CUdeviceptr和npp8u之间的皈依*。 Npp8u * SRC; ...... unsigned char型温度; TEMP = SRC; 的CUdeviceptr devPtr; ....... devPtr =(的CUdeviceptr)温度; 我试着写皈 ..
发布时间:2016-05-23 22:06:32 其他开发

我需要做什么了编程的Tegra GPU

我可以开发的CUDA处理器的Tegra 1/2的应用程序,我需要什么,这和什么样的Tegra 1/2 CUDA-能力? 我发现只有NVIDIA调试管理器的开发在Eclipse中为Android,但我不知道他是否可以开发出CUDA风格。 解决方案 当前的Tegra处理器(Tegra的1,2和3)不支持CUDA平台。要了解有关Tegra的发展和下载的Tegra Android的开发工具包,见hre ..
发布时间:2015-12-04 23:43:20 移动开发

尝试cudaExample0.sh时出现错误cuModuleLoad()209 - 运行cudaHashcat-1.33在AWS上g2.2xlarge

因为它说,在一个AWS g2.2xlarge比如我已经安装了cudaHashcat-1.33的说明。 我用的。运行文件,安装CUDA工具包,然后进行一下测试:DEVICEQUERY;这里介绍的官方文档(的http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/index.html#running-binaries). ..
发布时间:2015-12-01 13:05:31 服务器开发

传递结构到CUDA内核

我是新的CUDA C,并正尝试通过一个typedef定义结构到一个内核。我的方法工作得很好,当我试图用只含整数一个结构,但是当我切换到彩车,我得到意义的数字早在结果。我认为这是同对齐,我想包括 __ __对齐随着我的类型声明,但无济于事。有人可以给我如何做到这一点的例子,或提供另一种方法?我试图设定,让我可以轻松地添加或删除字段不改变任何东西比结构和内核等。我的code: typedef结构_ ..
发布时间:2015-11-30 23:35:04 敏捷开发

TERCOM算法 - 从单线程改变到CUDA多线程

我目前正在从只使用1线程使用多一个 TERCOM算法移植线程。简要说明的那样,TERCOM算法获得5测量和标题,并比较这测量到prestored地图。该算法将选择最佳匹配,即最低平均绝对差(MAD),并返回的位置。 在code为正常使用一个线程for循环,但是当我尝试使用多个线程,并阻止其返回错误的答案。这似乎是多线程版本不计算以同样的方式作为singlethread versjon“通过运行” ..
发布时间:2015-11-30 22:30:19 C/C++

如何衡量CUDA时间是否正确?

我试着去衡量并行和串行执行正确的时间,但我是因为怀疑: 假设我们有以下的code: //获取时间 clock_t表示开始,结束; 双totaltime; 启动=时钟(); 双* D_A,* d_B,* D_X; cudaMalloc((无效**)及D_A,的sizeof(双)*宽*宽); cudaMalloc((无效**)及d_B,的siz ..
发布时间:2015-11-30 22:12:14 C/C++

CUDA最大简算法不工作

一个previous问题问如何找到有效地找到在CUDA数组的最大值:的查找最大值CUDA中,顶响应中提供优化减少内核链接到NVIDIA presentation。 如果您正在使用Visual Studio,只需删除之间的标题参考,一切 CPU执行 予设置,其中发现的最大的变体,但它不匹配的CPU被找到: //返回的最大值 //大小为n的数组 浮动GetMax的(浮动*马克塞斯,INT N) ..
发布时间:2015-11-30 21:22:16 C/C++