CUDA设备到设备转移昂贵 [英] CUDA Device To Device transfer expensive

查看：232 发布时间：2017/3/4 12:23:10 c++ cuda fft

本文介绍了CUDA设备到设备转移昂贵的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我写了一些代码，试图交换用于FFT目的的2D矩阵的象限，存储在平面数组中。

I have written some code to try to swap quadrants of a 2D matrix for FFT purposes, that is stored in a flat array.

    int leftover = W-dcW;

    T *temp;
    T *topHalf;
cudaMalloc((void **)&temp, dcW * sizeof(T));

    //swap every row, left and right
    for(int i = 0; i < H; i++)
    {
        cudaMemcpy(temp, &data[i*W], dcW*sizeof(T),cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W],&data[i*W+dcW], leftover*sizeof(T), cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W+leftover], temp, dcW*sizeof(T), cudaMemcpyDeviceToDevice); 
    }

cudaMalloc((void **)&topHalf, dcH*W* sizeof(T));
    leftover = H-dcH;
    cudaMemcpy(topHalf, data, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(data, &data[dcH*W], leftover*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(&data[leftover*W], topHalf, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);

请注意，此代码需要设备指针，DeviceToDevice才会进行传输。

Notice that this code takes device pointers, and does DeviceToDevice transfers.

为什么这样运行这么慢？这可以优化以某种方式吗？

Why does this seem to run so slow? Can this be optimized somehow? I timed this compared to the same operation on host using regular memcpy and it was about 2x slower.

任何想法？

CUDA设备到设备转移昂贵 [英] CUDA Device To Device transfer expensive

问题描述

推荐答案

相关文章

C/C++开发最新文章

热门教程

热门工具

登录关闭

CUDA设备到设备转移昂贵 [英] CUDA Device To Device transfer expensive

问题描述

推荐答案

相关文章

C/C++开发最新文章

热门教程

热门工具

登录 关闭

登录关闭