pycuda相关内容

使用Pycuda多线程

我正在尝试使用Pycuda示例MultipleThreads在GPU上运行多个线程。当我运行我的python文件时,我收到以下错误消息: (/root/anaconda3/) root@109c7b117fd7:~/pycuda# python multiplethreads.py Exception in thread Thread-5: Traceback (most recent ca ..
发布时间:2022-04-17 16:21:15 Python

Pycuda块和格网,用于处理大数据

我需要帮助才能知道我的块和网格的大小。 我正在构建一个python应用程序来执行基于Scipy的公制计算:欧几里德距离、曼哈顿、皮尔逊、余弦、加入其他。 项目为PycudaDistances。 它似乎可以很好地处理小数组。当我执行更详尽的测试时,不幸的是它不起作用。我下载了电影镜头集(http://www.grouplens.org/node/73)。 使用Movielens10 ..
发布时间:2022-02-23 18:10:54 Python

如何在 pyCUDA 内核中生成随机数?

我正在使用 pyCUDA 进行 CUDA 编程.我需要在内核函数中使用随机数.CURAND 库在其中不起作用(pyCUDA).由于 GPU 有很多工作要做,在 CPU 内部生成随机数然后将它们传输到 GPU 是行不通的,反而消解了使用 GPU 的动机. 补充问题: 有没有办法使用 1 个块和 1 个线程在 GPU 上分配内存. 我正在使用多个内核.我需要使用多个 SourceModu ..
发布时间:2022-01-10 15:42:19 其他开发

pycuda 失败;Theano 与 Anaconda

我正在使用 Anaconda 在 MacOSX(Mavericks 10.9)上安装 Theano,就像这篇文章解释的那样:“如何让 Theano 在 Mac Lion 上运行?" theano.test() 此命令给出与上面帖子中相同的错误.它在 Ubuntu 14.1 和 System 76 上也会出现该错误. 我可以从 Theano 导入命令;但我仍然想了解为什么 thea ..
发布时间:2021-09-06 20:40:42 Python

使用 Flask 时 PyCUDA 上下文错误

我正在使用 PyCUDA 来实现如图所示的 smooth_local_affine 这里.当我只是在 linux 上运行程序时,它运行良好.但是当我尝试在 Flask 上下文中导入它时: from smooth_local_affine import smooth_local_affine从烧瓶进口烧瓶app = Flask(_name_)... 出现以下错误: -------------- ..
发布时间:2021-07-20 18:50:21 Python

解决pandas问题的并行编程方法

我有一个以下格式的数据框. df A B 目标5 4 31 3 4 我正在使用 pd.DataFrame(df.corr().iloc[:-1,-1]) 找到每一列(Target 除外)与 Target 列的相关性. 但问题是 - 我的实际数据帧的大小是 (216, 72391) 在我的系统上处理至少需要 30 分钟.有没有办法使用 gpu 并行化它?我需要多次查找相似类型的值,所以不能等 ..
发布时间:2021-06-10 19:05:57 Python

CUDA-从3D阵列提取图层

我有一个3D矩阵,其中x-y平面表示图像,z-平面表示图像层. 问题是,当我尝试使用idz提取第一层(或其他层)时,没有得到预期的结果.看起来数组一旦放在CUDA中,对于x,y或z的索引就比我期望的要大(与pycuda一样).我通过下面的结果数组看到了这一点. 以下是此迷你示例的逐步过程(我使用通用int编号表示图像,以保存上传的图像和整个代码)! 我在这里导入库并定义图像大小和图层.. ..
发布时间:2021-04-27 20:13:37 其他开发

我应该如何解释此CUDA错误?

我正在用pyCUDA自学CUDA.在本练习中,我想将1024个浮点数的简单数组发送到GPU,并将其存储在共享内存中.正如我在下面的参数中指定的那样,我仅在具有1024个线程的单个块上运行此内核. 将pycuda.driver导入为cuda从pycuda.compiler导入SourceModule导入pycuda.autoinit将numpy导入为np导入matplotlib.pyplot作为p ..
发布时间:2021-04-27 20:11:19 其他开发

在PyCUDA上共享内存入门

我正在尝试通过玩以下代码来了解共享内存: 将pycuda.driver导入为drv导入pycuda.tools导入pycuda.autoinit导入numpy从pycuda.compiler导入SourceModulesrc ='''__global__ void reduce0(float * g_idata,float * g_odata){extern __shared__ float s ..
发布时间:2021-04-27 20:10:32 Python

pyCuda,发送多个单变量参数时出现问题

我这里有一个pycuda程序,该程序从命令行读取图像并以反转的颜色保存回版本: import pycuda.autoinit导入pycuda.driver作为设备从pycuda.compiler导入SourceModule作为cpp将numpy导入为np导入系统导入cv2Modify_image = cpp(“"“__global__ void Modify_image(int pixelco ..
发布时间:2021-04-27 20:07:54 Python

PyCUDA:设备代码中的Pow尝试使用std :: pow失败

问题或多或少说明了一切. 不允许从__device __/__ global__函数("_calc_psd")调用主机函数("std :: pow") 据我了解,这应该改为使用cuda pow函数,但事实并非如此. 解决方案 该错误与所报告的编译器完全相同.您不能在设备代码中使用主机功能,因为主机功能包括整个主机C ++ std库.CUDA包括自己的标准库,如编程 ..
发布时间:2021-04-27 20:07:44 Python

无法使用带有水蟒的PyTorch Cuda

我正在使用水蟒来调节我的环境,对于一个项目,我必须使用我的GPU进行网络培训.我在项目中使用pytorch,并且试图使CUDA正常工作. 我安装了cudatoolkit,numba,cudnn 不过,当我尝试此命令时: torch.cuda.is_available() 我得到"False"作为输出.这是我的环境: #名称版本构建渠道blas 1.0 mklbzip2 1.0 ..
发布时间:2021-04-03 20:13:29 其他开发

使用CUDA的矩阵行中每个元素的排名

有没有办法使用CUDA或NVidia提供的相同功能在矩阵行中单独查找元素的行列? 解决方案 我不知道CUDA或我熟悉的任何库中的内置排名或argsort函数。 您当然可以构建 这里是使用推力的一种可能解决方案的(未优化的)轮廓: $ cat t84.cu #include #include ..
发布时间:2020-10-13 01:44:34 其他开发

pycuda共享内存错误“ pycuda._driver.LogicError:cuLaunchKernel失败:无效值”

我有一个奇怪的问题,我无法确定其起源: 我有一个工作的内核,可以加速某些特殊的Matrix-Vector乘法。基本上,大矩阵(10 ^ 6乘以10 ^ 6)是由少量小矩阵构成的。因此,我想将该数据放入共享内存中。但是,当我尝试添加共享内存时,只会出现以下错误: pycuda._driver.LogicError:cuLaunchKernel失败:无效值 所以我的工作内核是: ..
发布时间:2020-10-13 01:37:04 其他开发

TensorRT多线程

我正在尝试通过python API使用TensorRt。我试图在所有线程都使用Cuda上下文的多个线程中使用它(一切都在单个线程中工作正常)。我正在使用带有tensorrt:20.06-py3图像的docker和一个onnx模型以及Nvidia 1070 GPU。 应该允许使用多线程方法,如此处所述 TensorRT最佳做法。 我在主线程中创建了上下文: cuda.init() ..
发布时间:2020-10-13 01:35:41 其他开发

PyCUDA要么无法在NVIDIA源代码中找到功能,要么抛出“可能没有外部“ C””字样。链接错误

我正在尝试使用(并向其学习)马克·哈里斯(Mark Harris)的优化归约内核,方法是将其源代码复制到一个简单的pycuda应用程序中(我的尝试的完整信息在下面列出)。 很遗憾,我遇到了以下两个错误之一。 cuda内核无法编译,并引发以下错误消息。 kernel.cu(3):错误:此声明可能没有外部“ C”链接 如果我将参数 no_extern_c = Tru ..
发布时间:2020-10-13 01:32:52 其他开发