gpu相关内容

如何仅从gpu交换到cpu?

嗨,我想知道如何在我的CPU而不是GPU上运行机器学习代码? 我尝试使设置文件上的GPU错误,但无法修复它. ### 全局设置 GPU = False#强烈建议在GPU上运行CLEAN = False#如果要在生成结果后清除临时大文件,请设置为"True"APP =“分类"#请勿更改!模式选择:“分类","imagecap","vqa".当前不支持"imagecap"和"vqa".CA ..
发布时间:2021-05-13 18:43:10 Python

带有Tensorflow和Keras的CUDA_ERROR_LAUNCH_FAILED

我正在使用Keras使用fit_generator函数训练卷积神经网络,因为图像存储在.h5文件中,并且不适合内存.大多数情况下,由于模型卡在第一个时期的中间,我无法训练模型,否则会崩溃,并说"GPU同步失败"或"CUDA_ERROR_LAUNCH_FAILED"(请参阅​​下面的日志).使用CPU的训练效果很好,但当然会慢一些.我使用的是两台不同的机器,并且都有相同的问题.我的猜测是,这是与安装 ..
发布时间:2021-05-13 18:43:07 Python

最小矩阵尺寸可受益于GPU上的矩阵乘法

我对使用Metal Performance Shaders进行矩阵乘法特别感兴趣,但是有关其他框架的答案也很好. 矩阵乘法在理论上是高度可并行化的运算.我需要自己乘以A′A(撇号代表换位)的许多矩阵.矩阵A的大小约为4000 x300.考虑到这些矩阵的大小,我想知道是否值得将乘法代码移植到GPU.据我了解,在GPU上进行乘法运算还涉及将数据从主内存复制到GPU内存(我使用的是eGPU,因此不 ..
发布时间:2021-05-13 18:43:00 其他开发

使用Cupy从GPU上的另一个矩阵创建距离矩阵

我已经使用numpy编写了代码,该代码采用大小为(m x n)的数组...行(m)是由(n)个特征组成的单个观察结果...并且创建了大小为(m x m)的平方距离矩阵.该距离矩阵是给定观察值与所有其他观察值的距离.例如.第0行第9列是观测值0与观测值9之间的距离. 将numpy导入为np#将cupy作为np导入def l1_distance(arr):返回np.linalg.norm(arr,1 ..
发布时间:2021-05-13 18:42:57 Python

cuDF-不利用GPU内核

我是使用cuDF的python中的以下代码,以加快该过程.但是,与我的4核心本地计算机cpu相比,我看不出速度上的任何差异. GPU配置为4 x NVIDIA Tesla T4 def arima(train):h = []对于每个火车:模型= pm.auto_arima(np.array(ast.literal_eval(each)))p = model.predict(1).item(0) ..
发布时间:2021-05-13 18:42:54 Python

L2缓存的内存操作是否比NVIDIA GPU的全局内存快得多?

现代GPU架构同时具有L1缓存和L2缓存.众所周知,L1缓存比全局内存快得多.但是,L2缓存的速度在CUDA文档中不太清楚.我查阅了CUDA文档,但只能发现全局内存操作的延迟大约为300-500个周期,而L1缓存操作仅花费大约30个周期.任何人都可以给出二级缓存的速度吗?这样的信息可能非常有用,因为与全局内存相比,如果编程速度不是很快的话,编程将不会专注于优化L2缓存的使用.如果不同架构的速度不同 ..
发布时间:2021-05-13 18:42:46 其他开发

有效地计算3D numpy阵列沿具有不同面元边缘的轴的直方图

问题描述 我有一个3D numpy数组,表示为 data ,形状为N x R x C,即N个样本,R行和C列.我想获取样本和行的每种组合的沿列的直方图.但是bin边缘(请参阅bins 长度固定为S的> numpy.histogram )在不同的行上会有所不同,但会在样本之间共享.以这个示例为例,对于第一个样本( data [0] ),其第一行的bin边缘序列与第二行的bin边缘序列不同,但与 ..
发布时间:2021-05-13 18:42:42 Python

pyopenCL,openCL,无法在GPU上构建程序

我有一个内核源代码,可以在PC上的G970上运行,但是无法在具有Iris 6100 1536MB图形的2015年初的MacBook Pro上编译. platform = cl.get_platforms()[0]device = platform.get_devices()[1]#获取GPU IDctx = cl.Context([device])#告诉CL使用GPUqueue = cl.Co ..
发布时间:2021-05-13 18:42:39 Python

如何在带有conda的Windows 10上安装Tensorflow 2 GPU?

我有Nvidia RTX 2070,想使用GPU编程.我已经通过Conda轻松安装了Cuda,但以某种方式张量流未检测到任何GPU设备.我的tensorflow版本是2.3.0. 我已经尝试在anaconda提示符下使用以下命令,但是没有运气. conda create --name tfgpu python = 3.8.5 tensorflow-gpu 我还尝试了较长版本的下载 ..
发布时间:2021-05-13 18:42:36 其他开发

一次运行Snakemake规则一个样本

我正在创建一个Snakemake工作流程,该工作流程将包装 运行命令: snakemake -j 32 --use-conda 在 ../fastq/目录中存在四个样本/外显子组时出错: GPU-BWA memProgressMeter读取对齐的碱基对在ParaBricks/src/samGenerator.cu:782处cudaSafeCall()失败:内存不足在ParaBri ..
发布时间:2021-05-13 18:42:31 其他开发

Tensorflow可以在一个python文件中找到正确的cudnn但在另一个文件中失败

我正在尝试使用tensorflow gpu版本来训练和测试我的深度学习模型.但是问题来了.当我在一个python文件中训练模型时,一切进展顺利.Tensorflow-gpu可以正确使用.然后,我将模型保存为预训练为 grapg.pb 格式,并尝试在另一个python文件中重用它. 然后我收到以下错误消息. E tensorflow/stream_executor/cuda/cuda_dn ..
发布时间:2021-05-13 18:42:28 其他开发

R Keras是否基于此输出使用GPU?

我已经在具有Tensorflow和gpu支持的R中安装了具有gpu支持的Keras.这是通过以下步骤安装的: https://towardsdatascience.com/installing-tensorflow-with-cuda-cudnn-and-gpu-support-on-windows-10-60693e46e781 如果我运行《用R进行深度学习》一书中的Bosting住 ..
发布时间:2021-05-13 18:42:25 Python

GPU RAM已占用,但没有PID

nvidia-smi 显示如下,表明在GPU0上使用了3.77GB,但未列出GPU0的进程: (基本)〜/.../fast-autoaugment $ nvidia-smi2019年12月20日星期五13:48:12+ ----------------------------------------------------------------------------- +|NVIDIA-SM ..
发布时间:2021-05-13 18:42:22 其他开发

什么是redzone_checker?在GPU上分析我的Tensorflow应用程序

我正在使用NVIDIA的命令行Visual Profiler nvprof对一个tensorflow GPU应用程序进行性能分析,而已启动并且在性能分析中非常活跃的内核之一就是所谓的redzone_checker吗?我一生无法在互联网上任何地方找到任何有用的信息…… 任何帮助或提示都将不胜感激. nvprof中的redzone_checker内核 解决方案 redzone_ch ..
发布时间:2021-05-13 18:42:17 其他开发

Tensorflow在GPU上比在CPU上慢

使用Keras与Tensorflow后端,我正在尝试训练LSTM网络,并且在GPU上运行它比在CPU上运行要花费更长的时间. 我正在使用fit_generator函数训练LSTM网络.每个纪元需要CPU〜250秒,而每个纪元需要GPU〜900秒.我的GPU环境中的软件包包括 keras-applications 1.0.8 py_0 anacondakeras-base 2.2.4 py ..
发布时间:2021-05-13 18:42:10 其他开发