cuBLAS argmin -- 如果输出到设备内存，会出现段错误? [英] cuBLAS argmin -- segfault if outputing to device memory?

查看：11 发布时间：2022/1/10 15:43:46 cuda gpu gpgpu blas cublas

本文介绍了cuBLAS argmin -- 如果输出到设备内存，会出现段错误?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

在 cuBLAS 中，cublasIsamin() 给出单精度数组的 argmin.

In cuBLAS, cublasIsamin() gives the argmin for a single-precision array.

这是完整的函数声明: cublasStatus_t cublasIsamin(cublasHandle_t handle, int n,const float *x, int incx, int *result)

Here's the full function declaration: cublasStatus_t cublasIsamin(cublasHandle_t handle, int n, const float *x, int incx, int *result)

cuBLAS 程序员指南提供了有关 cublasIsamin() 参数的信息:

The cuBLAS programmer guide provides this information about the cublasIsamin() parameters:

如果我为 result 使用 host (CPU) 内存，则 cublasIsamin 可以正常工作.这是一个例子:

If I use host (CPU) memory for result, then cublasIsamin works properly. Here's an example:

void argmin_experiment_hostOutput(){
    float h_A[4] = {1, 2, 3, 4}; int N = 4; 
    float* d_A = 0;
    CHECK_CUDART(cudaMalloc((void**)&d_A, N * sizeof(d_A[0])));
    CHECK_CUBLAS(cublasSetVector(N, sizeof(h_A[0]), h_A, 1, d_A, 1));
    cublasHandle_t handle; CHECK_CUBLAS(cublasCreate(&handle));

    int result; //host memory
    CHECK_CUBLAS(cublasIsamin(handle, N, d_A, 1, &result));
    printf("argmin = %d, min = %f 
", result, h_A[result]);

    CHECK_CUBLAS(cublasDestroy(handle));
}

但是，如果我为 result 使用 device (GPU) 内存，则 cublasIsamin 段错误.这是一个段错误的例子:

However, if I use device (GPU) memory for result, then cublasIsamin segfaults. Here's an example that segfaults:

void argmin_experiment_deviceOutput(){
    float h_A[4] = {1, 2, 3, 4}; int N = 4;
    float* d_A = 0;
    CHECK_CUDART(cudaMalloc((void**)&d_A, N * sizeof(d_A[0])));
    CHECK_CUBLAS(cublasSetVector(N, sizeof(h_A[0]), h_A, 1, d_A, 1));
    cublasHandle_t handle; CHECK_CUBLAS(cublasCreate(&handle));

    int* d_result = 0; 
    CHECK_CUDART(cudaMalloc((void**)&d_result, 1 * sizeof(d_result[0]))); //just enough device memory for 1 result
    CHECK_CUDART(cudaMemset(d_result, 0, 1 * sizeof(d_result[0])));
    CHECK_CUBLAS(cublasIsamin(handle, N, d_A, 1, d_result)); //SEGFAULT!

    CHECK_CUBLAS(cublasDestroy(handle));
}

<小时>

Nvidia 指南说 `cublasIsamin()` 可以输出到设备内存.我究竟做错了什么?

<小时>

动机:我想在多个流中同时计算多个向量的 argmin().输出到主机内存需要 CPU-GPU 同步，并且似乎会杀死多内核并发.所以，我想将 argmin 输出到设备内存.

The Nvidia guide says that `cublasIsamin()` can output to device memory. What am I doing wrong?

Motivation: I want to compute the argmin() of several vectors concurrently in multiple streams. Outputting to host memory requires CPU-GPU synchronization and seems to kill the multi-kernel concurrency. So, I want to output the argmin to device memory instead.

cuBLAS argmin -- 如果输出到设备内存，会出现段错误? [英] cuBLAS argmin -- segfault if outputing to device memory?

问题描述

Nvidia 指南说 `cublasIsamin()` 可以输出到设备内存.我究竟做错了什么?

The Nvidia guide says that `cublasIsamin()` can output to device memory. What am I doing wrong?

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

cuBLAS argmin -- 如果输出到设备内存，会出现段错误? [英] cuBLAS argmin -- segfault if outputing to device memory?

问题描述

Nvidia 指南说 `cublasIsamin()` 可以输出到设备内存.我究竟做错了什么?

The Nvidia guide says that `cublasIsamin()` can output to device memory. What am I doing wrong?

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭