cub - IT屋-程序员软件开发技术分享社区

完全在芯片上制作 CUB blockradixsort?

我正在阅读 CUB 文档和示例: #include //或等效地 __global__ 无效 ExampleKernel(...){//为 128 个线程专门化 BlockRadixSort，每个线程拥有 4 个整数项typedef cub::BlockRadixSort块基数排序；//为 BlockRad ..

发布时间：2022-01-10 16:02:18 cuda gpu radix-sort cub 其他开发

CUDA 中的块减少

我正在尝试减少 CUDA，我真的是一个新手.我目前正在研究来自 NVIDIA 的示例代码. 我想我真的不知道如何设置块大小和网格大小，尤其是当我的输入数组(512 X 512)大于单个块大小时. 这里是代码. 模板__global__ void reduce6(int *g_idata, int *g_odata, unsigned i ..

发布时间：2022-01-10 15:51:53 algorithm cuda reduction cub 其他开发

减少CUDA中的区块

我正在尝试减少CUDA，我确实是一个新手。我目前正在研究NVIDIA的示例代码。我想我真的不确定如何设置块大小和网格大小，尤其是当我的输入数组较大时（ 512 X 512 ）比单个块大小大。这里是代码。 template ..

发布时间：2020-06-03 19:55:15 algorithm cuda reduction cub 其他开发

在CUDA中按键对(小)数组进行排序

我正在尝试编写一个函数，该函数需要一块未排序的键/值对，例如并按键对它们进行排序，同时减少具有相同键的对的值: 当前，我正在使用__device__函数，如下所示，它本质上是一种双调排序，它将组合相同键的值并 ..

发布时间：2020-05-24 21:15:07 sorting cuda parallel-processing reduce cub 其他开发

使芯片上的CUB blockradixsort完全？

我正在阅读CUB文档和示例： #include //或等效地 __global__ void ExampleKernel（...） { //为128个拥有4个整数项的线程专门化BlockRadixSort typedef cub :: BlockRadixSort ..

发布时间：2017-03-05 19:23:37 cuda gpu radix-sort cub 其它硬件开发

在CUDA中排序许多小数组

我在CUDA中实现了一个中值滤波器。对于特定像素，我提取对应于像素周围窗口的邻居，例如 N x N （ 3 x 3 ）窗口，现在有一个 N x N 元素的数组。我不想为我的应用程序使用超过 10 x 10 元素的窗口。此数组现在在本地存在于内核中，并已加载到设备内存中。从我以前阅读的SO帖子，最常见的排序算法由Thrust实现。但是，Thrust只能从主机调用。主题 - 推荐用户编写的内核 ..

发布时间：2017-03-04 16:26:10 sorting cuda cub 其它硬件开发

如何在一个CUDA代码中使用CUB和Thrust

我试图在我的“旧”Thrust代码中引入一些CUB，所以开始一个小例子来比较 thrust :: reduce_by_key 和 cub :: DeviceReduce :: ReduceByKey ，都应用于 thrust :: device_vectors 。代码的推力部分很好，但是CUB部分原本使用通过thrust :: raw_pointer_cast获得的原始指针，在CUB调用后 ..

发布时间：2017-03-04 13:14:32 cuda thrust cub 其它硬件开发

cub相关内容