gpu 第12页 - IT屋-程序员软件开发技术分享社区

在OpenACC中正确使用device_type

我有一个 for 循环，如果目标硬件是NVIDIA，我想将它与OpenACC并行化，或者当目标硬件是AMD时，以串行方式运行它.我尝试了以下方法: #pragma acc循环\device_type(tesla)并行\device_type(radeon)序列对于(int z = 0; z ..

发布时间：2021-05-13 18:39:09 gpgpu gpu openacc 其他开发

如何减少OpenCL入队时间/其他任何想法?

我有一个算法，我一直在尝试在nVidia上使用OpenCL加速它. 它必须处理大量数据(比如说100k到百万)，其中每个数据:必须首先更新矩阵(在设备上)(使用数据和两个向量)；并且只有在更新整个矩阵之后，两个向量(同样在设备上)才使用相同的数据进行更新.所以，我的主机代码看起来像这样 for(int i = 0; i ..

发布时间：2021-05-13 18:39:01 parallel-processing opencl gpu gpgpu hardware-acceleration 其他开发

NVidia GP100 具有30个TPC电路和240个“纹理单元".TPC和纹理单元是否被TensorFlow使用，或者这些可丢弃的硅片用于机器学习吗? 我正在运行的神经网络培训课程中查看GPU-Z和Windows 10的内置GPU性能监视器，并且发现各种硬件功能未得到充分利用.Tensorflow使用CUDA.我想，CUDA可以访问所有硬件组件.如果我知道差距在哪里(在Tensorflo ..

发布时间：2021-05-13 18:38:58 tensorflow gpu gpgpu 其他开发

基于GPU的搜索图上两个节点之间的所有可能路径

我的工作广泛使用了Migliore，Martorana和Sciortino的算法来查找所有可能的简单路径，即在图中不曾遇到一次以上节点的简单路径，如下所述: ..

发布时间：2021-05-13 18:38:54 graph-theory gpgpu gpu 其他开发

除12小时后的会话超时外，对Google colab而言是否还有其他限制?

限制之一是每个会话只能连续获取12个小时.GPU和TPU的使用是否有限制? 解决方案是的，您只能使用1个GPU，有限的12GB内存，而TPU具有64 GB的高带宽内存.您可以在此文章.因此，如果您想使用大型数据集，那么我建议您在训练之前使用 tf.data.Dataset 进行准备.如果要使用GPU，则可以使用任何TF版本.但是对于TPU，我建议使用TF1.14. ..

发布时间：2021-05-12 20:02:15 tensorflow session gpu google-colaboratory tpu 其他开发

使用pytorch获取可用的GPU内存总量

我正在使用Google Colab Free Gpu进行实验，想知道有多少GPU内存可玩，torch.cuda.memory_allocated()返回当前占用的GPU内存，但是我们如何使用PyTorch确定总可用内存解决方案 PyTorch可以为您提供总计，保留和分配的信息: t = torch.cuda.get_device_properties(0).total_memoryr ..

发布时间：2021-05-12 20:00:54 gpu pytorch google-colaboratory 其他开发

为什么我的colab笔记本不使用GPU?

当我在选择了GPU之后在我的colab笔记本上运行代码时，我收到一条消息，提示“您已连接到GPU运行时，但未使用GPU".现在，我知道之前曾问过类似的问题，但我仍然不明白为什么.我正在数百次迭代的数据集上运行PCA，以进行多次试验.没有GPU的时间大约是笔记本电脑上的时间，这可能会超过12个小时，从而导致colab超时.colab的GPU是否仅限于像tensorflow这样的机器学习库?有没有办法 ..

发布时间：2021-05-12 19:51:20 google-cloud-platform gpu google-colaboratory 其他开发

如何在傅立叶域中对长信号实现Pytorch 1D互相关?

我有一系列信号长度n = 36,000，需要对其进行互相关.目前，我在numpy中执行cpu有点慢.我听说Pytorch可以大大加快张量操作，并提供了一种在GPU上并行执行计算的方法.我想探索这个选项，但是我不太确定如何使用框架来完成此操作. 由于这些信号的长度，我宁愿在频域中执行互相关运算. 通常使用numpy来执行以下操作: 将numpy导入为npsignal_length = ..

发布时间：2021-05-06 20:58:18 python-3.x gpu fft pytorch cross-correlation 其他开发

使用gpu使用ffmpeg转换视频

我有视频共享站点，并使用ffmpeg转换视频，但是转换需要很多时间.如何快速，安全地进行?我认为当ffmpeg与GPU搭配使用时对我有帮助，但是我找不到很好的参考.哪个应用程序或参考可以帮助我获得良好的性能. 解决方案更新2017年第四季度.自从我最初的答案以来，基于GPU的编码已广泛可用.如果您拥有现代的 NVIDIA视频卡，并且可以编译ffmpeg ，那么您应该会很好.感谢 Dmyt ..

发布时间：2021-05-06 20:41:54 video ffmpeg gpu video-processing video-conversion 其他开发

Pytorch RuntimeError:预期设备类型为cuda的对象，但在调用_th_index_select时获得了参数#1'self'的设备类型cpu

我正在训练一个模型，该模型采用标记化的字符串，然后将其通过嵌入层和LSTM.但是，输入中似乎有错误，因为它没有通过嵌入层. class DrugModel(nn.Module):def __init __(self，input_dim，output_dim，hidden_dim，drug_embed_dim，lstm_layer，lstm_dropout，bi_lstm，linear_dr ..

发布时间：2021-05-04 19:05:37 runtime-error gpu pytorch embedding 其他开发

无法通过Docker驱动程序在Minikube上使用GPU

目标: 我正在尝试在使用默认Docker驱动程序的Minikube集群上使用Nvidia GPU功能. 问题: 我可以在默认的 docker 上下文中使用 nvidia-docker ，但是当切换到 minikube docker-env 时，我得到了出现以下错误: $ docker run --gpus所有nvidia/cuda:10.0-base nvidia-smido ..

发布时间：2021-05-02 19:29:58 docker gpu minikube nvidia-docker 其他开发

访问在nvidia-docker容器中运行的jupyter笔记本所需的登录密码

在Ubuntu 16.04(NVIDIA GPU GeFORCE 840M)成功安装后，我按以下顺序运行此命令以在docker容器中运行tensoflow. 1.sudo服务docker启动2. sudo nvidia-docker运行-it -p 8888:8888 gcr.io/tensorflow/tensorflow:latest-gpu 然后，我尝试通过键入localhost ..

发布时间：2021-05-02 19:19:44 docker tensorflow gpu ubuntu-16.04 其他开发

NSight图形调试无法启动

我正在尝试使用NSight在VS2012中调试HLSL着色器，但无法启动. 当我单击“开始图形调试"时，似乎启动了应用程序片刻，然后将其关闭(NSight的输出窗口显示了几行“着色器已加载"/“着色器已卸载"行).Windows事件日志不显示任何内容("NVIDIA Network Service"无法启动，但据我所知，这与更新有关.) 另一方面，如果我开始进行GPU性能分析，那么它将 ..

发布时间：2021-04-30 20:24:12 debugging directx gpu hlsl nsight 其他开发

为什么我的CPU做矩阵运算要比GPU快?

当我尝试验证GPU是否可以通过CPU进行矩阵运算时，我得到了意外的结果.根据我的经验结果，CPU的性能要优于GPU，这让我感到困惑. 我分别使用cpu和gpu进行矩阵乘法.编程环境为MXNet和cuda-10.1. 使用gpu: 将mxnet导入为mx从mxnet导入ndx = nd.random.normal(shape =(100000,100000)，ctx = mx.gpu( ..

发布时间：2021-04-29 20:50:40 machine-learning deep-learning gpu mxnet AI人工智能

如何在数据块上的ML运行时环境中启用GPU可见?

我正在尝试在数据砖/GPU(p2.xlarge)上以以下环境运行一些TensorFlow(2.2)示例代码: 6.6 ML，spark 2.4.5，GPU，Scala 2.11Keras版本:2.2.5英伟达NVIDIA-SMI 440.64.00驱动程序版本:440.64.00 CUDA版本:10.2 我已经检查了但是，我有例外. 如何启用GPU，以便TF代码可以在其上运行 ..

发布时间：2021-04-28 20:44:40 python-3.x tensorflow keras gpu databricks 其他开发

指定任务资源:小数gpu

是否可以为任务指定分数gpu要求?在Dask网页上的示例中，它指定了一个GPU. 来自分布式导入客户端的客户=客户('scheduler:8786')数据= [client.submit(load，fn)for fn in filenames]已处理= [client.submit(process，d，resources = {'GPU':1})for d in data]最终= clien ..

发布时间：2021-04-28 19:33:21 gpu dask 其他开发

CUDA-从3D阵列提取图层

我有一个3D矩阵，其中x-y平面表示图像，z-平面表示图像层. 问题是，当我尝试使用idz提取第一层(或其他层)时，没有得到预期的结果.看起来数组一旦放在CUDA中，对于x，y或z的索引就比我期望的要大(与pycuda一样).我通过下面的结果数组看到了这一点. 以下是此迷你示例的逐步过程(我使用通用int编号表示图像，以保存上传的图像和整个代码)！我在这里导入库并定义图像大小和图层.. ..

发布时间：2021-04-27 20:13:37 parallel-processing cuda gpu gpgpu pycuda 其他开发

在GPU中为许多高斯-勒加德正交积分分享根源和权重

我打算以并行方式计算许多数字正交，最终在所有计算中使用一组通用数据(相当大的根和权重数组占用大约25 Kb的内存).高斯-勒根德勒(Gauss-Legendre)正交方法非常简单，一开始就可以.我想通过声明 device double * d_droot，* d_dweight使设备中的所有线程，根和权重可用.但是我缺少了一些东西，因为我必须明确地将指针传递给数组，以使内核正常工作.我该怎么做呢? ..

发布时间：2021-04-27 20:13:26 c++ cuda gpu C/C++开发

cuda.jit矩阵乘法崩溃

我正在尝试将cuda.jit矩阵乘法写成我的线程块数的上限，它只能是一个.而且我也知道我的乘法形式为X * Xtranspose. def matmul_gpu(X，Y):#使用cuda.to_device在GPU内存中分配输出矩阵##调用1个线程的点内核带有1024个线程的块##使用copy_to_host()将输出矩阵从GPU复制到cpugpu_mat1 = cuda.to_device( ..

发布时间：2021-04-27 20:12:32 cuda matrix-multiplication jit numba gpu 其他开发

为什么CUDA不会导致C ++代码加速?

我正在使用VS2019，并且具有NVIDIA GeForce GPU.我从此链接尝试了代码: https://towardsdatascience.com/用cuda-c18677dcdd5f编写闪电般的快速代码该文章的作者声称使用CUDA时可以加快速度.但是，对我来说，串行版本大约需要7毫秒，而CUDA版本大约需要28毫秒.为什么此代码的CUDA速度较慢?我使用的代码如下: __ g ..

发布时间：2021-04-27 20:11:35 c++ parallel-processing cuda gpu C/C++开发

gpu相关内容