nvidia相关内容
我正在 4x RTX 3090 上运行使用 TensorFlow 1.x 编写的模型,与在 1x RTX 3090 中相比,开始训练需要很长时间.尽管在训练开始时,它比 1x 更早地完成了 4x.我在两个 GPU 中都使用 CUDA 11.1 和 TensorFlow 1.14. 其次,当我使用 1x RTX 2080ti 和 CUDA 10.2 和 TensorFlow 1.14 时,与
..
Tensorflow-gpu 绑定到特定版本的 Nvidia CUDA Toolkit 的原因是什么?当前版本似乎专门寻找 9.0,并且不适用于更高的版本.例如,我安装了最新的 Toolkit 9.2 并将其添加到路径中,但 Tensorflow-gpu 无法使用它并抱怨它正在寻找 9.0. 我可以看到不支持主要版本更新而是次要版本? 解决方案 这是个好问题.根据英伟达的网站,
..
我有四块 NVIDIA GTX 1080 显卡,当我初始化会话时,我看到以下控制台输出: 添加可见的gpu设备:0, 1, 2, 3具有强度 1 边缘矩阵的设备互连 StreamExecutor:0 1 2 30:N Y N N1: Y N N N2: N N N Y3:N N Y N 我还有 2 个 NVIDIA M60 Tesla 显卡,初始化看起来像: 添加可见的gpu设备:0, 1,
..
我一直在阅读有关 2D 数组和 cudaMallocPitch 的 stackoverflow 上的一些线程,并且我尝试将 cudaMallocPitch 与我找到的小文档一起使用.但是我现在面临一个问题. 我需要遍历一个数组并做类似的事情: for(int k=0; k 因此我想知道,我应该如何调整这段代码以使其与音高一起工作,因为我已经读到我必须更新指向行开头的指针.当然,我的内核
..
让 tensorflow-gpu 2.x Python 包在带有 NVidia GPU 的 Windows 上运行的步骤是什么? 即我怎样才能摆脱找不到'cudart64_101.dll'然后找不到'cudnn64_7.dll'? 解决方案 步骤 根据您看到的错误消息需要特定版本,不是最新版本! 1.下载并安装最新的 NVidia 驱动 https://www.nv
..
我正在尝试理解和调试我的代码.我尝试使用在 GPU 上的 tf2.0/tf.keras 下开发的 CNN 模型进行预测,但得到了那些错误消息.有人可以帮我解决吗? 这是我的环境配置 环境:蟒蛇 3.6.8张量流-GPU 2.0.0-rc0英伟达 418.xCUDA 10.0cuDNN 7.6+** 和日志文件, 2019-09-28 13:10:59.833892: 我tensorfl
..
nvidia-smi 在 Windows 的命令提示符 (CMD) 中执行返回以下错误 C:\Users>nvidia-smi'nvidia-smi' 不被识别为内部或外部命令,可运行的程序或批处理文件. 它位于哪里?CUDA 已经安装. 解决方案 Nvidia-SMI默认存储在以下位置 C:\Windows\System32\DriverStore\FileRepository
..
如标题中所述,我发现 cudaMallocPitch()的功能消耗大量时间,而 cudaMemcpy2D()的消耗也相当长的时间. 这是我正在使用的代码: cudaMallocPitch((void **)(& SrcDst),& DeviceStride,Size.width * sizeof(float),Size.height);cudaMemcpy2D(SrcDst,Device
..
现代GPU架构同时具有L1缓存和L2缓存.众所周知,L1缓存比全局内存快得多.但是,L2缓存的速度在CUDA文档中不太清楚.我查阅了CUDA文档,但只能发现全局内存操作的延迟大约为300-500个周期,而L1缓存操作仅花费大约30个周期.任何人都可以给出二级缓存的速度吗?这样的信息可能非常有用,因为与全局内存相比,如果编程速度不是很快的话,编程将不会专注于优化L2缓存的使用.如果不同架构的速度不同
..
我正在尝试使用tensorflow gpu版本来训练和测试我的深度学习模型.但是问题来了.当我在一个python文件中训练模型时,一切进展顺利.Tensorflow-gpu可以正确使用.然后,我将模型保存为预训练为 grapg.pb 格式,并尝试在另一个python文件中重用它. 然后我收到以下错误消息. E tensorflow/stream_executor/cuda/cuda_dn
..
nvidia-smi 显示如下,表明在GPU0上使用了3.77GB,但未列出GPU0的进程: (基本)〜/.../fast-autoaugment $ nvidia-smi2019年12月20日星期五13:48:12+ ----------------------------------------------------------------------------- +|NVIDIA-SM
..
在宿主代码中,看来 __ CUDA_ARCH __ 宏不会生成不同的代码路径,而是会为当前设备的确切代码路径生成代码. 但是,如果 __ CUDA_ARCH __ 在设备代码中,它将为编译选项(/arch)中指定的不同设备生成不同的代码路径. 任何人都可以确认这是正确的吗? 解决方案 __ CUDA_ARCH __ 在设备代码中使用时,将带有为其定义的数字,以反映当前正在编译的
..
我有多个GPU,但是我只想使用一个GPU进行训练.我正在使用以下选项: config = tf.ConfigProto(allow_soft_placement = True,log_device_placement = True)config.gpu_options.allow_growth =真与tf.Session(config = config)作为sess: 尽管设置了/使用所有
..
我正在尝试构建可以使用GPUS运行的docker映像,这是我的情况:
..
有一些类似的字符串 std :: string第一,第二,第三;... 我的计划是将其地址收集到char *数组中: char *地址= {& first [0],& second [0],& third [0]} ... 并将char **地址传递给OpenCL内核. 有几个问题或疑问: 主要问题是我无法传递指针数组. 有什么好方法可以使用内核代码中的许多字
..
FFMPEG几个月前推出了带有新过滤器"overlay_cuda"的FFMPEG新版本,该过滤器与"overlay"过滤器的功能相同.但要使用Nvidia卡进行应用. 我在FFMPEG网站上找到了该过滤器的说明,但没有使用它的示例.我发现的唯一示例来自开发人员提交,但是将视频或照片放在另一个视频上. 在使用普通的重叠式滤镜之前,我使用宽度为两倍的nullsrc图像进行此操作,但现在我不
..
您好,我刚刚购买了新的RTX 3080 GPU.我想将Cuda用于我的Tensorflow模型.但是,当我开始训练模型时,需要花费一个多小时来开始训练模型.所以我去了tensorflow网站,并说要增加CUDA_CACHE_MAXSIZE,但我不知道那是哪里.有人可以帮我找到它并扩大尺寸吗?我的GPU是10GB.谢谢! 解决方案 通过组合 Robert Crovella 在评论部分中提供的
..
我想计算3D空间中两个三角形之间的角度.两个三角形将始终恰好共享两个点.例如 三角形1: Point1(x1,y1,z1),点2(x2,y2,z2),Point3(x3,y3,z3). 三角形2: Point1(x1,y1,z1),点2(x2,y2,z2),Point4(x4,y4,z4). 在CUDA中是否可以有效地计算它们之间的角度? 解决方案 对于每个平面,您需
..
我正在尝试解决运行CUDA示例中包含的simpleP2P示例程序时发现的错误.错误如下: $ ./simpleP2P[./simpleP2P]-正在启动...正在检查多个GPU ...支持CUDA的设备数量:2>GPU0 ="Tesla K20c" IS具有点对点(P2P)功能>GPU1 ="Tesla K20c" IS具有点对点(P2P)功能正在检查GPU是否支持对等内存访问...>来自特斯
..
我正在尝试复制到恒定内存中.但是我不能因为对cudaMemcpyToSymbol函数用法的误解.我试图遵循此 这是一些代码 __ device__ __constant__ double var1;__device__ __constant__ int var2;int main(){//...这里有一些代码...double var1ToCopy = 10.1;int var2ToCo
..