cuda 第124页 - IT屋-程序员软件开发技术分享社区

在本地存储阵列定义变量的大小，使用CUDA

是不是有点可能使一个列表，数组，一些在设备与列表/数组中的呼叫beeing一个参数的大小...或全局变量的在呼叫时初始化函数？我想是这样，这些列表中的一个工作： unsigned int类型尺寸1;__device__ void函数（INT尺寸2）{ INT LIST1 [尺寸1]; INT列表2 [尺寸2]; } 是否有可能做一些聪明的做出这样的工作？解决方案有 ..

发布时间：2016-06-01 20:19:59 c arrays cuda 其他开发

在结构指针传递给CUDA

我一直在瞎搞与这一段时间，但似乎无法得到它的权利。我试图复制包含数组到CUDA设备内存中的对象（和回来，但我会船到桥头时，我来到它）：结构迈德特{ 浮*数据; INT DATALEN; }无效copyToGPU（）{ //创建虚拟对象进行复制 INT N = 10; 迈德特* h_items =新迈德特[N]; 的for（int i = 0; I＆LT; N;我++）{ ..

发布时间：2016-06-01 19:59:42 arrays pointers cuda struct 其他开发

在CUDA内核嵌套

CUDA目前不允许嵌套的内核。要具体，我有以下问题：我有M维数据的N个。处理每个N个数据点的三内核需要在序列中运行。一直以来，仁嵌套是不允许的，我不能创建调用这三个内核的内核。因此，我必须串行处理每个数据点。一个解决方法是写一个包含所有其他三个内核的功能的大内核，但我认为这将次优的。任何人能否提供流如何可用于并行运行的N个数据点，同时保留了三个更小的内核。感谢。解决方案 ..

发布时间：2016-06-01 19:47:29 arrays cuda 其他开发

加入CUDA字符数组

我想在CUDA加2字符数组，但没有什么工作。我试图用字符临时[32]; 的strcpy（温度，my_array）; strcat的（温度，my_array_2）; 当我用这个内核 - 我得到错误：调用从__global__函数（“过程”）一__host__功能（“strcpy的”）是不允许在此之后，我试着在主机使用这些功能，而不是内核 - 没有错误，但加入后我收到奇怪的符号，比如Ķ ..

发布时间：2016-06-01 13:57:44 arrays cuda char addition 其他开发

GPU / CUDA：重新排序设备内存

我有存储在设备内存多维数组。我想“置换” /的”转“，也就是说，根据新的重新安排它的元素为了尺寸。例如，如果我有一个二维数组 A = [0，1，2 3，4，5] 我想改变尺寸的顺序，所以我得到 B = [0，3 1,4 2，5] 这重新排序几乎副本存储在内存中的顺序 [0,1,2,3,4,5] 元素，并返回一个新的排序 [0,3,1,4,2,5] 。 ..

发布时间：2016-05-31 21:05:06 c++ arrays cuda gpu C/C++开发

在CUDA内核中搜索有序阵列

我正在写一个CUDA内核每个线程必须完成以下任务：假设我有一个有序阵列 A的 N code>无符号整数（第一个是始终为0）存储在共享内存，每个线程都有发现数组索引 I ，使得一个[I] ≤ threadIdx.x 和 A [I + 1] > threadIdx.x 。一个天真的解决办法是：为（i = 0; I＆LT; N - 1;我++）如果（一个[I + 1]≥thread ..

发布时间：2016-05-31 20:00:55 arrays cuda 其他开发

无效的参数错误时，从设备将数据复制到主机

我有我的设备的数据复制回主机的问题。我的数据布置在一个结构： typedef结构Array2D { 双* ARR; 诠释行; 诠释COLS; } Array2D; 改编是一个'平'的数组。行和 COLS 描述的尺寸。在code以下显示了如何在尝试将数据复制回主机： h_output =（Array2D *）malloc的（的sizeof（Array2D））; ..

发布时间：2016-05-31 19:58:15 arrays cuda copy 其他开发

这有什么CUDA code返回此意外发生输出？

说完最后得到动态并行运行起来，我想现在执行它我的模型。我花了一段时间才能弄清楚，一些奇怪的输出是由于需要使用cudaDeviceSynchronize（），使内核家长等待孩子内核完成。似乎有什么毛病我定义为arrAdd设备功能。下面是输出表前和K2父内核每个孩子的内核了。最初：K1 = {-1 0 0 0 0} 帖子arrInit：TEMP = {0.25 0.25 0.25 0.25 ..

发布时间：2016-05-31 19:00:57 arrays cuda parent-child 其他开发

在CUDA内核，我如何存储和QUOT阵列;本地线程内存和QUOT ;?

我试图发展与CUDA的小程序，但由于它是缓慢的我做了一些测试，并用Google搜索了一下。我发现，虽然单一变量是存储在本地线程内存中默认情况下，阵列通常不是。我想这就是为什么需要这么多的时间来执行。现在我不知道：因为本地线程的内存至少应为16KB和因为我的阵列就像是52个字符长，有什么办法（语法请:)）将它们存储在本地内存难道不应该是这样的： __ global__ my_kernel ..

发布时间：2016-05-30 22:55:29 arrays memory cuda local 其他开发

阵列结构VS在CUDA结构数组

从我这里看了一些评论，由于某种原因，它是preferable有阵列（SOA）以上（AOS）的结构像CUDA并行实现？如果这是真的谁都可以解释，为什么？在此先感谢！解决方案与SOA AOS的选择以获得最佳性能通常取决于访问模式。这并不仅仅局限于但是CUDA - 类似的考虑也适用于任何架构，性能，可显著受内存访问模式，例如在这里你有缓存或者性能与连续的内存访问（例如合并的存储器访问CU ..

发布时间：2016-05-30 21:50:33 c++ c arrays struct cuda C/C++开发

我在Visual Studio 2010中运行的CUDA（V4.2）计划，而我通过各种命令行参数。我想主机编译器看到同样的参数时，我通过nsight（V2.2）运行。我想我已经通过（右键单击项目）要做到这一点 - > nsight用户设置 - >命令行参数，但还没有设法找到一个不崩溃NVCC语法。我假设它是围绕着“--run-ARGS”不知何故？ **澄清，下面的评论后：当你直通VS调试当然 ..

发布时间：2016-05-29 12:27:31 cuda arguments command-line-arguments gpu nsight JavaScript

GPGPU VM的：任何开源项目到端口的虚拟机上的图形处理单元？

NVIDIA发布CUDA的API使开发人员能够利用自己的显卡，以大规模并行架构和矢量运算的优势。创建库如pyCUDA允许脚本语言的开发人员发送选定code到GPU。和出现了越来越多的精力来设计多语种的虚拟机，如鹦鹉，像二郎强类型的并发友好的语言上。所以我在想，是否有任何开源项目，code量身定制的虚拟机环境，让GPU的全部好处？我会想象有运行大型脚本语言能够把所有的GPU优势强类型，m ..

发布时间：2016-05-28 11:22:26 architecture open-source cuda virtual-machine gpgpu 其他开发

CUDA核心VS线程数

我对内核的一个NVIDIA GPU的数量，开关电源的数量，和最大线程数之间的关系混为一谈。我的笔记本电脑的GT650M设备属性显示384芯，2的SMP，每个SMP 1024个线程。如何这些数字相互关联和经纱的大小？我认为（也许不正确地）有每个SMP 192核心，但是如果每个核心运行32个线程的经线，这不是1024的一个因素，我希望每个SMP 32 * 192线程，或2 ^ 5 *（2 ^ 7 ..

发布时间：2016-05-28 11:13:27 architecture cuda hardware 其他开发

我怎么能转换Npp8u *到的CUdeviceptr

我是新来的CUDA驱动程序API接口，但我认为的CUdeviceptr看起来像一个手柄parameter.So我感到困惑的CUdeviceptr和npp8u之间的皈依*。 Npp8u * SRC; ...... unsigned char型温度; TEMP = SRC; 的CUdeviceptr devPtr; ....... devPtr =（的CUdeviceptr）温度; 我试着写皈 ..

发布时间：2016-05-23 22:06:32 api cuda driver npp 其他开发

我需要做什么了编程的Tegra GPU

我可以开发的CUDA处理器的Tegra 1/2的应用程序，我需要什么，这和什么样的Tegra 1/2 CUDA-能力？我发现只有NVIDIA调试管理器的开发在Eclipse中为Android，但我不知道他是否可以开发出CUDA风格。解决方案当前的Tegra处理器（Tegra的1,2和3）不支持CUDA平台。要了解有关Tegra的发展和下载的Tegra Android的开发工具包，见hre ..

发布时间：2015-12-04 23:43:20 android cuda gpgpu tegra 移动开发

尝试cudaExample0.sh时出现错误cuModuleLoad（）209 - 运行cudaHashcat-1.33在AWS上g2.2xlarge

因为它说，在一个AWS g2.2xlarge比如我已经安装了cudaHashcat-1.33的说明。我用的。运行文件，安装CUDA工具包，然后进行一下测试：DEVICEQUERY;这里介绍的官方文档（的http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/index.html#running-binaries). ..

发布时间：2015-12-01 13:05:31 linux amazon-web-services cuda nvidia aws-ec2 服务器开发

传递结构到CUDA内核

我是新的CUDA C，并正尝试通过一个typedef定义结构到一个内核。我的方法工作得很好，当我试图用只含整数一个结构，但是当我切换到彩车，我得到意义的数字早在结果。我认为这是同对齐，我想包括 __ __对齐随着我的类型声明，但无济于事。有人可以给我如何做到这一点的例子，或提供另一种方法？我试图设定，让我可以轻松地添加或删除字段不改变任何东西比结构和内核等。我的code： typedef结构_ ..

发布时间：2015-11-30 23:35:04 struct cuda alignment 敏捷开发

TERCOM算法 - 从单线程改变到CUDA多线程

我目前正在从只使用1线程使用多一个 TERCOM算法移植线程。简要说明的那样，TERCOM算法获得5测量和标题，并比较这测量到prestored地图。该算法将选择最佳匹配，即最低平均绝对差（MAD），并返回的位置。在code为正常使用一个线程for循环，但是当我尝试使用多个线程，并阻止其返回错误的答案。这似乎是多线程版本不计算以同样的方式作为singlethread versjon“通过运行” ..

发布时间：2015-11-30 22:30:19 algorithm cuda navigation C/C++

如何衡量CUDA时间是否正确？

我试着去衡量并行和串行执行正确的时间，但我是因为怀疑：假设我们有以下的code： //获取时间 clock_t表示开始，结束; 双totaltime; 启动=时钟（）; 双* D_A，* d_B，* D_X; cudaMalloc（（无效**）及D_A，的sizeof（双）*宽*宽）; cudaMalloc（（无效**）及d_B，的siz ..

发布时间：2015-11-30 22:12:14 c performance algorithm cuda measurement C/C++

CUDA最大简算法不工作

一个previous问题问如何找到有效地找到在CUDA数组的最大值：的查找最大值CUDA中，顶响应中提供优化减少内核链接到NVIDIA presentation。如果您正在使用Visual Studio，只需删除之间的标题参考，一切 CPU执行予设置，其中发现的最大的变体，但它不匹配的CPU被找到： //返回的最大值 //大小为n的数组浮动GetMax的（浮动*马克塞斯，INT N） ..

发布时间：2015-11-30 21:22:16 algorithm cuda parallel-processing max reduction C/C++

cuda相关内容