gpu相关内容

在OpenACC中正确使用device_type

我有一个 for 循环,如果目标硬件是NVIDIA,我想将它与OpenACC并行化,或者当目标硬件是AMD时,以串行方式运行它.我尝试了以下方法: #pragma acc循环\device_type(tesla)并行\device_type(radeon)序列对于(int z = 0; z ..
发布时间:2021-05-13 18:39:09 其他开发

如何减少OpenCL入队时间/其他任何想法?

我有一个算法,我一直在尝试在nVidia上使用OpenCL加速它. 它必须处理大量数据(比如说100k到百万),其中每个数据:必须首先更新矩阵(在设备上)(使用数据和两个向量);并且只有在更新整个矩阵之后,两个向量(同样在设备上)才使用相同的数据进行更新.所以,我的主机代码看起来像这样 for(int i = 0; i ..

TensorFlow是否使用GPU上的所有硬件?

NVidia GP100 具有30个TPC电路和240个“纹理单元".TPC和纹理单元是否被TensorFlow使用,或者这些可丢弃的硅片用于机器学习吗? 我正在运行的神经网络培训课程中查看GPU-Z和Windows 10的内置GPU性能监视器,并且发现各种硬件功能未得到充分利用.Tensorflow使用CUDA.我想,CUDA可以访问所有硬件组件.如果我知道差距在哪里(在Tensorflo ..
发布时间:2021-05-13 18:38:58 其他开发

除12小时后的会话超时外,对Google colab而言是否还有其他限制?

限制之一是每个会话只能连续获取12个小时.GPU和TPU的使用是否有限制? 解决方案 是的,您只能使用1个GPU,有限的12GB内存,而TPU具有64 GB的高带宽内存.您可以在此文章.因此,如果您想使用大型数据集,那么我建议您在训练之前使用 tf.data.Dataset 进行准备.如果要使用GPU,则可以使用任何TF版本.但是对于TPU,我建议使用TF1.14. ..
发布时间:2021-05-12 20:02:15 其他开发

使用pytorch获取可用的GPU内存总量

我正在使用Google Colab Free Gpu进行实验,想知道有多少GPU内存可玩,torch.cuda.memory_allocated()返回当前占用的GPU内存,但是我们如何使用PyTorch确定总可用内存 解决方案 PyTorch可以为您提供总计,保留和分配的信息: t = torch.cuda.get_device_properties(0).total_memoryr ..
发布时间:2021-05-12 20:00:54 其他开发

为什么我的colab笔记本不使用GPU?

当我在选择了GPU之后在我的colab笔记本上运行代码时,我收到一条消息,提示“您已连接到GPU运行时,但未使用GPU".现在,我知道之前曾问过类似的问题,但我仍然不明白为什么.我正在数百次迭代的数据集上运行PCA,以进行多次试验.没有GPU的时间大约是笔记本电脑上的时间,这可能会超过12个小时,从而导致colab超时.colab的GPU是否仅限于像tensorflow这样的机器学习库?有没有办法 ..
发布时间:2021-05-12 19:51:20 其他开发

如何在傅立叶域中对长信号实现Pytorch 1D互相关?

我有一系列信号长度n = 36,000,需要对其进行互相关.目前,我在numpy中执行cpu有点慢.我听说Pytorch可以大大加快张量操作,并提供了一种在GPU上并行执行计算的方法.我想探索这个选项,但是我不太确定如何使用框架来完成此操作. 由于这些信号的长度,我宁愿在频域中执行互相关运算. 通常使用numpy来执行以下操作: 将numpy导入为npsignal_length = ..
发布时间:2021-05-06 20:58:18 其他开发

使用gpu使用ffmpeg转换视频

我有视频共享站点,并使用ffmpeg转换视频,但是转换需要很多时间.如何快速,安全地进行?我认为当ffmpeg与GPU搭配使用时对我有帮助,但是我找不到很好的参考.哪个应用程序或参考可以帮助我获得良好的性能. 解决方案 更新2017年第四季度.自从我最初的答案以来,基于GPU的编码已广泛可用.如果您拥有现代的 NVIDIA视频卡,并且可以编译ffmpeg ,那么您应该会很好.感谢 Dmyt ..
发布时间:2021-05-06 20:41:54 其他开发

Pytorch RuntimeError:预期设备类型为cuda的对象,但在调用_th_index_select时获得了参数#1'self'的设备类型cpu

我正在训练一个模型,该模型采用标记化的字符串,然后将其通过嵌入层和LSTM.但是,输入中似乎有错误,因为它没有通过嵌入层. class DrugModel(nn.Module):def __init __(self,input_dim,output_dim,hidden_​​dim,drug_embed_dim,lstm_layer,lstm_dropout,bi_lstm,linear_dr ..
发布时间:2021-05-04 19:05:37 其他开发

NSight图形调试无法启动

我正在尝试使用NSight在VS2012中调试HLSL着色器,但无法启动. 当我单击“开始图形调试"时,似乎启动了应用程序片刻,然后将其关闭(NSight的输出窗口显示了几行“着色器已加载"/“着色器已卸载"行).Windows事件日志不显示任何内容("NVIDIA Network Service"无法启动,但据我所知,这与更新有关.) 另一方面,如果我开始进行GPU性能分析,那么它将 ..
发布时间:2021-04-30 20:24:12 其他开发

为什么我的CPU做矩阵运算要比GPU快?

当我尝试验证GPU是否可以通过CPU进行矩阵运算时,我得到了意外的结果.根据我的经验结果,CPU的性能要优于GPU,这让我感到困惑. 我分别使用cpu和gpu进行矩阵乘法.编程环境为MXNet和cuda-10.1. 使用gpu: 将mxnet导入为mx从mxnet导入ndx = nd.random.normal(shape =(100000,100000),ctx = mx.gpu( ..
发布时间:2021-04-29 20:50:40 AI人工智能

指定任务资源:小数gpu

是否可以为任务指定分数gpu要求?在Dask网页上的示例中,它指定了一个GPU. 来自分布式导入客户端的 客户=客户('scheduler:8786')数据= [client.submit(load,fn)for fn in filenames]已处理= [client.submit(process,d,resources = {'GPU':1})for d in data]最终= clien ..
发布时间:2021-04-28 19:33:21 其他开发

CUDA-从3D阵列提取图层

我有一个3D矩阵,其中x-y平面表示图像,z-平面表示图像层. 问题是,当我尝试使用idz提取第一层(或其他层)时,没有得到预期的结果.看起来数组一旦放在CUDA中,对于x,y或z的索引就比我期望的要大(与pycuda一样).我通过下面的结果数组看到了这一点. 以下是此迷你示例的逐步过程(我使用通用int编号表示图像,以保存上传的图像和整个代码)! 我在这里导入库并定义图像大小和图层.. ..
发布时间:2021-04-27 20:13:37 其他开发

在GPU中为许多高斯-勒加德正交积分分享根源和权重

我打算以并行方式计算许多数字正交,最终在所有计算中使用一组通用数据(相当大的根和权重数组占用大约25 Kb的内存).高斯-勒根德勒(Gauss-Legendre)正交方法非常简单,一开始就可以.我想通过声明 device double * d_droot,* d_dweight使设备中的所有线程,根和权重可用.但是我缺少了一些东西,因为我必须明确地将指针传递给数组,以使内核正常工作.我该怎么做呢? ..
发布时间:2021-04-27 20:13:26 C/C++开发

cuda.jit矩阵乘法崩溃

我正在尝试将cuda.jit矩阵乘法写成我的线程块数的上限,它只能是一个.而且我也知道我的乘法形式为X * Xtranspose. def matmul_gpu(X,Y):#使用cuda.to_device在GPU内存中分配输出矩阵##调用1个线程的点内核带有1024个线程的块##使用copy_to_host()将输出矩阵从GPU复制到cpugpu_mat1 = cuda.to_device( ..
发布时间:2021-04-27 20:12:32 其他开发

为什么CUDA不会导致C ++代码加速?

我正在使用VS2019,并且具有NVIDIA GeForce GPU.我从此链接尝试了代码: https://towardsdatascience.com/用cuda-c18677dcdd5f编写闪电般的快速代码 该文章的作者声称使用CUDA时可以加快速度.但是,对我来说,串行版本大约需要7毫秒,而CUDA版本大约需要28毫秒.为什么此代码的CUDA速度较慢?我使用的代码如下: __ g ..
发布时间:2021-04-27 20:11:35 C/C++开发