cub相关内容

CUDA 中的块减少

我正在尝试减少 CUDA,我真的是一个新手.我目前正在研究来自 NVIDIA 的示例代码. 我想我真的不知道如何设置块大小和网格大小,尤其是当我的输入数组(512 X 512)大于单个块大小时. 这里是代码. 模板__global__ void reduce6(int *g_idata, int *g_odata, unsigned i ..
发布时间:2022-01-10 15:51:53 其他开发

减少CUDA中的区块

我正在尝试减少CUDA,我确实是一个新手。我目前正在研究NVIDIA的示例代码。 我想我真的不确定如何设置块大小和网格大小,尤其是当我的输入数组较大时( 512 X 512 )比单个块大小大。 这里是代码。 template ..
发布时间:2020-06-03 19:55:15 其他开发

在CUDA中排序许多小数组

我在CUDA中实现了一个中值滤波器。对于特定像素,我提取对应于像素周围窗口的邻居,例如 N x N ( 3 x 3 )窗口,现在有一个 N x N 元素的数组。我不想为我的应用程序使用超过 10 x 10 元素的窗口。 此数组现在在本地存在于内核中,并已加载到设备内存中。从我以前阅读的SO帖子,最常见的排序算法由Thrust实现。但是,Thrust只能从主机调用。主题 - 推荐用户编写的内核 ..
发布时间:2017-03-04 16:26:10 其它硬件开发

如何在一个CUDA代码中使用CUB和Thrust

我试图在我的“旧”Thrust代码中引入一些CUB,所以开始一个小例子来比较 thrust :: reduce_by_key 和 cub :: DeviceReduce :: ReduceByKey ,都应用于 thrust :: device_vectors 。 代码的推力部分很好,但是CUB部分原本使用通过thrust :: raw_pointer_cast获得的原始指针,在CUB调用后 ..
发布时间:2017-03-04 13:14:32 其它硬件开发