gpu-programming相关内容

如何在AMD GPU上运行Python?

我们目前正在尝试优化至少包含12个变量的系统.这些变量的总合并超过10亿.这不是深度学习或机器学习或Tensorflow或其他任何东西,而是对时间序列数据的任意计算. 我们已经用Python实现了代码,并在CPU上成功运行了它.我们还尝试了多处理,该方法也很好用,但由于计算需要数周,因此我们需要更快的计算速度.我们拥有一个由6个AMD GPU组成的GPU系统.我们想在此GPU系统上运行代码, ..
发布时间:2020-05-24 21:09:32 Python

如何在Windows中使用CUDA的协作组功能

我的GPU是GeForce MX150,pascal架构,CC. 6.1,CUDA 9.1,Windows 10. 尽管我的GPU是Pascal,但是合作小组无法正常工作.我想将其用于块间同步. 我发现我的tcc模式没有激活. 我还发现在Windows的wddm中它不起作用. 如何使用合作组? 如何在Windows中激活tcc模式? 感谢您的回复. 解决方案 您无法在该GPU上激 ..

如何将OpenCV_GPUMat转换为CUdeviceptr?

我正在修改Video_Codec_SDK_8.0.14中的NVTranscoder项目,以便将一些信号处理工作添加到视频帧中. 但是,将GPUMat转换为CUdeviceptr时遇到一些问题. 我想知道如何将GPUMat转换为CUdeviceptr.在执行如下强调的模糊功能后,我想将处理过的垫子变成CUdeviceptr. 此外,将CUdeviceptr转换为GPUmat的部分也是错误的,因 ..
发布时间:2020-05-20 21:07:42 其他开发

从OpenCL中的GPU内核创建GPU上由主机ptr指向的缓冲区的副本

我试图了解CL_MEM_USE_HOST_PTR和CL_MEM_COPY_HOST_PTR的工作方式. 基本上,当使用CL_MEM_USE_HOST_PTR时,例如在创建2D图像时,这不会将任何内容复制到设备,而是GPU将引用主机上的映射内存(clEnqueueMapBuffer对其进行映射),进行处理,然后我们可以将结果写入其他位置 另一方面,如果我使用CL_MEM_COPY_HOST_P ..
发布时间:2020-05-20 19:03:29 其他开发

OpenCL(Cuda)中的元素操作

我构建了一个用于两个矩阵元素相乘的内核,但是至少在我的配置下,我的OpenCL内核仅在每个矩阵大于2GB时才更快.所以我在想,这是因为我的天真的内核(请参阅下文)还是由于元素操作的性质,这意味着元素操作不会因使用GPU而受益. 感谢您的输入! 内核: KERNEL_CODE = """ // elementwise multiplication: C = A .* B. __ke ..
发布时间:2020-05-20 19:01:21 其他开发

是否有适用于Mac OS X 10.8的opencl分析器?

我正在尝试在OpenCL内核中找到瓶颈,是否可以在Mac OS X上分析OpenCL程序?我在 http://www.gremedy.com/上找到了gDebugger,但是它需要10.5或10.6才能运行. AMD SDK仅支持Linux和Windows. 山狮有探查器吗? 解决方案 分析信息必须有多详细? 可以使用内置的内部事件探查器吗? 可以使用CL_QUEUE_PROFIL ..
发布时间:2020-05-20 18:59:35 其他开发

在NVIDIA硬件上运行OpenCL程序

我已经构建了一个简单的基于OpenCL的程序(使用C ++),并在Windows 8系统上使用AMD FirePro V4900卡进行了测试.我正在使用AMD APP SDK. 当我将二进制文件复制到另一台计算机(带有NVIDIA Quadro 4000卡的Windows 8)时, “过程入口点clReleaseDevice不能位于动态链接库(我的程序的exe)中".第二台计算机已安装了最新 ..
发布时间:2020-05-20 18:58:56 其他开发

nvidia GPU上的内核真的有超时吗?

寻找有关为什么我的内核产生奇怪错误消息或仅显示"0"的答案,我发现了这个您对此有什么了解? timout是否会对长时间运行的内核造成奇怪的行为? 谢谢! 解决方案 进一步的谷歌搜索在 #单个GPU程序的启动被限制在带有显示器的GPU上的运行时间少于5秒.超过此时间限制通常会导致通过CUDA驱动程序或CUDA运行时报告启动失败.未连接显示器的GPU不受5秒运行时间限制.因此,建 ..
发布时间:2020-05-20 18:58:26 其他开发

使用NVIDIA的nvcc编译器编译并生成.cl文件?

是否可以使用NVIDIA的nvcc编译器来编译.cl文件?我正在尝试设置Visual Studio 2010以在CUDA平台下编码Opencl.但是,当我选择CUDA C/C ++编译器进行编译和生成.cl文件时,它给了我类似nvcc不存在的错误.有什么问题吗? 解决方案 您应该能够使用nvcc来编译OpenCL代码.通常,我建议对C兼容代码使用文件名扩展名.c,对C ++兼容代码使用文件 ..
发布时间:2020-05-20 18:57:07 其他开发

在Mac上远程登录后,如何在GPU上测试OpenCL?

当我在控制台登录时,我的OpenCL程序可以找到GPU设备,但是当我使用ssh远程登录时,找不到.此外,如果我在ssh会话中以root身份运行该程序,则该程序可以找到GPU. 该计算机是具有GeForce 9400 GPU的Snow Leopard Mac. 如果我从控制台或以root用户身份运行程序(请参见下文),则输出如下(请注意"GeForce 9400"行): 2 dev ..
发布时间:2020-05-20 18:53:54 其他开发

使用CL/cl.h文件编译OpenCL程序

我有样本"Hello,World!"来自网络的代码,我想在大学服务器上的GPU上运行它.当我输入"gcc main.c"时,它会回应: CL/cl.h:没有这样的文件或目录 我该怎么办?我怎么有这个头文件? 解决方案 确保已安装适当的工具箱. 这取决于要在其上运行代码的内容.如果您有NVidia卡,则需要下载并安装 CUDA工具包,其中还包含opencl必需的二进制文件和 ..
发布时间:2020-05-20 18:51:39 其他开发

Visual Studio 2010上的Intel OpenCL SDK的OpenCL代码'错误MSB3721'

我目前正在使用Intel的OpenCL SDK平台进行异构并行编程(OpenCL).我为此使用Visual Studio 2010 Ultimate.我的系统中没有任何GPU.我曾在用于Opencl编程的CUDA SDK平台上工作.这是我第一次使用英特尔的OpenCL SDK进行opencl编程. 我已经尝试了《 OpenCL in Action》一书中的一些基本平台,设备,上下文标识/创建 ..
发布时间:2020-05-20 18:51:14 其他开发

为什么MATLAB gpuarray仅添加两个矩阵要慢得多?

我最近使用MATLAB CUDA库在gpu上进行了一些绝对简单的矩阵计算.但是性能结果却很奇怪. 任何人都可以帮助我了解到底发生了什么以及如何解决该问题.提前致谢. 请注意,以下代码在geforce GTX TITAN black gpu上运行. 假设a0,a1,... a6为1000 * 1000 gpuarrays,U = 0.5和V = 0.0 titan = gpuDevice ..
发布时间:2020-05-06 13:19:44 其他开发

如何确定seq2seq张量流RNN训练模型的最大批处理大小

当前,我正在使用默认的64作为seq2seq张量流模型的批处理大小.最大批处理大小,层大小等是多少,我可以使用具有12 GB RAM和Haswell-E xeon 128 GB RAM的单个Titan X GPU.输入数据将转换为嵌入.以下是我正在使用的一些有用的参数,似乎单元格的输入大小为1024: encoder_inputs: a list of 2D Tensors [batch_s ..

使用GPU的不同图像块大小

我希望在不同图像上应用滤镜运动一定次数的迭代,每个图像将被分成不同的块大小。 例如,如果图像大小为 1024x870 ,如何将此图像划分为不同的块大小 8x8 , 16x16 , 64x64 等,使用MATLAB? 解决方案 这不完美但我愿意: A =兰特(128); Apatch = im2col(A,[64 64],'distinct'); Apacth = gp ..
发布时间:2018-07-31 07:50:57 其他开发