pycuda相关内容
我正在尝试使用Pycuda示例MultipleThreads在GPU上运行多个线程。当我运行我的python文件时,我收到以下错误消息: (/root/anaconda3/) root@109c7b117fd7:~/pycuda# python multiplethreads.py Exception in thread Thread-5: Traceback (most recent ca
..
我需要帮助才能知道我的块和网格的大小。 我正在构建一个python应用程序来执行基于Scipy的公制计算:欧几里德距离、曼哈顿、皮尔逊、余弦、加入其他。 项目为PycudaDistances。 它似乎可以很好地处理小数组。当我执行更详尽的测试时,不幸的是它不起作用。我下载了电影镜头集(http://www.grouplens.org/node/73)。 使用Movielens10
..
我正在使用 pyCUDA 进行 CUDA 编程.我需要在内核函数中使用随机数.CURAND 库在其中不起作用(pyCUDA).由于 GPU 有很多工作要做,在 CPU 内部生成随机数然后将它们传输到 GPU 是行不通的,反而消解了使用 GPU 的动机. 补充问题: 有没有办法使用 1 个块和 1 个线程在 GPU 上分配内存. 我正在使用多个内核.我需要使用多个 SourceModu
..
当我创建一个新会话并告诉 Visual Profiler 启动我的 python/pycuda 脚本时,我收到以下错误消息:Execution run #1 of program '' failed, exit code: 255 这些是我的偏好: 启动:python "/pathtopycudafile/mysuperkernel.py" 工作目录:"/pathtopycudafi
..
我正在使用 Anaconda 在 MacOSX(Mavericks 10.9)上安装 Theano,就像这篇文章解释的那样:“如何让 Theano 在 Mac Lion 上运行?" theano.test() 此命令给出与上面帖子中相同的错误.它在 Ubuntu 14.1 和 System 76 上也会出现该错误. 我可以从 Theano 导入命令;但我仍然想了解为什么 thea
..
我正在使用 PyCUDA 来实现如图所示的 smooth_local_affine 这里.当我只是在 linux 上运行程序时,它运行良好.但是当我尝试在 Flask 上下文中导入它时: from smooth_local_affine import smooth_local_affine从烧瓶进口烧瓶app = Flask(_name_)... 出现以下错误: --------------
..
我有一个以下格式的数据框. df A B 目标5 4 31 3 4 我正在使用 pd.DataFrame(df.corr().iloc[:-1,-1]) 找到每一列(Target 除外)与 Target 列的相关性. 但问题是 - 我的实际数据帧的大小是 (216, 72391) 在我的系统上处理至少需要 30 分钟.有没有办法使用 gpu 并行化它?我需要多次查找相似类型的值,所以不能等
..
我需要将矩阵与其转置相乘,但我的 GPU 内存不足并显示错误消息 numba.cuda.cudadrv.driver.CudaAPIError: [2] 调用 cuMemAlloc 导致 CUDA_ERROR_OUT_OF_MEMORY 我期望矩阵的大小大约为 10k 行和 100k 列,因此将其与其 trnspose 相乘将得到 10k 行和 10k 列的方阵的结果.矩阵只包含0和1.
..
我有一个3D矩阵,其中x-y平面表示图像,z-平面表示图像层. 问题是,当我尝试使用idz提取第一层(或其他层)时,没有得到预期的结果.看起来数组一旦放在CUDA中,对于x,y或z的索引就比我期望的要大(与pycuda一样).我通过下面的结果数组看到了这一点. 以下是此迷你示例的逐步过程(我使用通用int编号表示图像,以保存上传的图像和整个代码)! 我在这里导入库并定义图像大小和图层..
..
我正在用pyCUDA自学CUDA.在本练习中,我想将1024个浮点数的简单数组发送到GPU,并将其存储在共享内存中.正如我在下面的参数中指定的那样,我仅在具有1024个线程的单个块上运行此内核. 将pycuda.driver导入为cuda从pycuda.compiler导入SourceModule导入pycuda.autoinit将numpy导入为np导入matplotlib.pyplot作为p
..
我正在尝试通过玩以下代码来了解共享内存: 将pycuda.driver导入为drv导入pycuda.tools导入pycuda.autoinit导入numpy从pycuda.compiler导入SourceModulesrc ='''__global__ void reduce0(float * g_idata,float * g_odata){extern __shared__ float s
..
我这里有一个pycuda程序,该程序从命令行读取图像并以反转的颜色保存回版本: import pycuda.autoinit导入pycuda.driver作为设备从pycuda.compiler导入SourceModule作为cpp将numpy导入为np导入系统导入cv2Modify_image = cpp(“"“__global__ void Modify_image(int pixelco
..
问题或多或少说明了一切. 不允许从__device __/__ global__函数("_calc_psd")调用主机函数("std :: pow") 据我了解,这应该改为使用cuda pow函数,但事实并非如此. 解决方案 该错误与所报告的编译器完全相同.您不能在设备代码中使用主机功能,因为主机功能包括整个主机C ++ std库.CUDA包括自己的标准库,如编程
..
我正在使用水蟒来调节我的环境,对于一个项目,我必须使用我的GPU进行网络培训.我在项目中使用pytorch,并且试图使CUDA正常工作. 我安装了cudatoolkit,numba,cudnn 不过,当我尝试此命令时: torch.cuda.is_available() 我得到"False"作为输出.这是我的环境: #名称版本构建渠道blas 1.0 mklbzip2 1.0
..
我想在flask服务器上运行pyCUDA代码.该文件可以直接使用python3正确运行,但是使用flask调用相应的功能时会失败. 以下是相关代码: cudaFlask.py: import pycuda.autoinit import pycuda.driver as drv import numpy from pycuda.compiler import SourceMod
..
有没有办法使用CUDA或NVidia提供的相同功能在矩阵行中单独查找元素的行列? 解决方案 我不知道CUDA或我熟悉的任何库中的内置排名或argsort函数。 您当然可以构建 这里是使用推力的一种可能解决方案的(未优化的)轮廓: $ cat t84.cu #include #include
..
我有一个奇怪的问题,我无法确定其起源: 我有一个工作的内核,可以加速某些特殊的Matrix-Vector乘法。基本上,大矩阵(10 ^ 6乘以10 ^ 6)是由少量小矩阵构成的。因此,我想将该数据放入共享内存中。但是,当我尝试添加共享内存时,只会出现以下错误: pycuda._driver.LogicError:cuLaunchKernel失败:无效值 所以我的工作内核是:
..
我正在尝试通过python API使用TensorRt。我试图在所有线程都使用Cuda上下文的多个线程中使用它(一切都在单个线程中工作正常)。我正在使用带有tensorrt:20.06-py3图像的docker和一个onnx模型以及Nvidia 1070 GPU。 应该允许使用多线程方法,如此处所述 TensorRT最佳做法。 我在主线程中创建了上下文: cuda.init()
..
我在python3中有一些这样的代码: import numpy as np import pycuda.driver as cuda来自pycuda.compiler的 import SourceModule,将 导入tensorflow编译为tf #创建设备和上下文 cudadevice = cuda.Device(gpuid1) cudacontext = cudad
..
我正在尝试使用(并向其学习)马克·哈里斯(Mark Harris)的优化归约内核,方法是将其源代码复制到一个简单的pycuda应用程序中(我的尝试的完整信息在下面列出)。 很遗憾,我遇到了以下两个错误之一。 cuda内核无法编译,并引发以下错误消息。 kernel.cu(3):错误:此声明可能没有外部“ C”链接 如果我将参数 no_extern_c = Tru
..