nvidia相关内容

rtx 3090 上的 Tensorflow 1.14 性能问题

我正在 4x RTX 3090 上运行使用 TensorFlow 1.x 编写的模型,与在 1x RTX 3090 中相比,开始训练需要很长时间.尽管在训练开始时,它比 1x 更早地完成了 4x.我在两个 GPU 中都使用 CUDA 11.1 和 TensorFlow 1.14. 其次,当我使用 1x RTX 2080ti 和 CUDA 10.2 和 TensorFlow 1.14 时,与 ..
发布时间:2021-06-11 18:54:03 其他开发

支持 Nvidia CUDA Toolkit 9.2

Tensorflow-gpu 绑定到特定版本的 Nvidia CUDA Toolkit 的原因是什么?当前版本似乎专门寻找 9.0,并且不适用于更高的版本.例如,我安装了最新的 Toolkit 9.2 并将其添加到路径中,但 Tensorflow-gpu 无法使用它并抱怨它正在寻找 9.0. 我可以看到不支持主要版本更新而是次要版本? 解决方案 这是个好问题.根据英伟达的网站, ..
发布时间:2021-06-11 18:54:00 其他开发

带有 CUDA 和 cudaMallocPitch 的二维数组

我一直在阅读有关 2D 数组和 cudaMallocPitch 的 stackoverflow 上的一些线程,并且我尝试将 cudaMallocPitch 与我找到的小文档一起使用.但是我现在面临一个问题. 我需要遍历一个数组并做类似的事情: for(int k=0; k 因此我想知道,我应该如何调整这段代码以使其与音高一起工作,因为我已经读到我必须更新指向行开头的指针.当然,我的内核 ..
发布时间:2021-06-11 18:53:54 其他开发

Tensorflow 2.0 不能使用 GPU,cuDNN 出问题了?:无法得到卷积算法.这可能是因为 cuDNN 初始化失败

我正在尝试理解和调试我的代码.我尝试使用在 GPU 上的 tf2.0/tf.keras 下开发的 CNN 模型进行预测,但得到了那些错误消息.有人可以帮我解决吗? 这是我的环境配置 环境:蟒蛇 3.6.8张量流-GPU 2.0.0-rc0英伟达 418.xCUDA 10.0cuDNN 7.6+** 和日志文件, 2019-09-28 13:10:59.833892: 我tensorfl ..
发布时间:2021-06-11 18:53:47 其他开发

如何在 Windows 上运行 nvidia-smi?

nvidia-smi 在 Windows 的命令提示符 (CMD) 中执行返回以下错误 C:\Users>nvidia-smi'nvidia-smi' 不被识别为内部或外部命令,可运行的程序或批处理文件. 它位于哪里?CUDA 已经安装. 解决方案 Nvidia-SMI默认存储在以下位置 C:\Windows\System32\DriverStore\FileRepository ..
发布时间:2021-06-11 18:53:44 其他开发

L2缓存的内存操作是否比NVIDIA GPU的全局内存快得多?

现代GPU架构同时具有L1缓存和L2缓存.众所周知,L1缓存比全局内存快得多.但是,L2缓存的速度在CUDA文档中不太清楚.我查阅了CUDA文档,但只能发现全局内存操作的延迟大约为300-500个周期,而L1缓存操作仅花费大约30个周期.任何人都可以给出二级缓存的速度吗?这样的信息可能非常有用,因为与全局内存相比,如果编程速度不是很快的话,编程将不会专注于优化L2缓存的使用.如果不同架构的速度不同 ..
发布时间:2021-05-13 18:42:46 其他开发

Tensorflow可以在一个python文件中找到正确的cudnn但在另一个文件中失败

我正在尝试使用tensorflow gpu版本来训练和测试我的深度学习模型.但是问题来了.当我在一个python文件中训练模型时,一切进展顺利.Tensorflow-gpu可以正确使用.然后,我将模型保存为预训练为 grapg.pb 格式,并尝试在另一个python文件中重用它. 然后我收到以下错误消息. E tensorflow/stream_executor/cuda/cuda_dn ..
发布时间:2021-05-13 18:42:28 其他开发

GPU RAM已占用,但没有PID

nvidia-smi 显示如下,表明在GPU0上使用了3.77GB,但未列出GPU0的进程: (基本)〜/.../fast-autoaugment $ nvidia-smi2019年12月20日星期五13:48:12+ ----------------------------------------------------------------------------- +|NVIDIA-SM ..
发布时间:2021-05-13 18:42:22 其他开发

__CUDA_ARCH__宏的行为

在宿主代码中,看来 __ CUDA_ARCH __ 宏不会生成不同的代码路径,而是会为当前设备的确切代码路径生成代码. 但是,如果 __ CUDA_ARCH __ 在设备代码中,它将为编译选项(/arch)中指定的不同设备生成不同的代码路径. 任何人都可以确认这是正确的吗? 解决方案 __ CUDA_ARCH __ 在设备代码中使用时,将带有为其定义的数字,以反映当前正在编译的 ..
发布时间:2021-05-13 18:42:07 其他开发

来自OpenCL内核的处理字符串

有一些类似的字符串 std :: string第一,第二,第三;... 我的计划是将其地址收集到char *数组中: char *地址= {& first [0],& second [0],& third [0]} ... 并将char **地址传递给OpenCL内核. 有几个问题或疑问: 主要问题是我无法传递指针数组. 有什么好方法可以使用内核代码中的许多字 ..
发布时间:2021-05-13 18:39:06 其他开发

如何使用ffmpeg overlay_cuda过滤器制作SBS视频?

FFMPEG几个月前推出了带有新过滤器"overlay_cuda"的FFMPEG新版本,该过滤器与"overlay"过滤器的功能相同.但要使用Nvidia卡进行应用. 我在FFMPEG网站上找到了该过滤器的说明,但没有使用它的示例.我发现的唯一示例来自开发人员提交,但是将视频或照片放在另一个视频上. 在使用普通的重叠式滤镜之前,我使用宽度为两倍的nullsrc图像进行此操作,但现在我不 ..
发布时间:2021-05-06 20:50:10 其他开发

如何更改CUDA_CACHE_MAXSIZE NVIDIA

您好,我刚刚购买了新的RTX 3080 GPU.我想将Cuda用于我的Tensorflow模型.但是,当我开始训练模型时,需要花费一个多小时来开始训练模型.所以我去了tensorflow网站,并说要增加CUDA_CACHE_MAXSIZE,但我不知道那是哪里.有人可以帮我找到它并扩大尺寸吗?我的GPU是10GB.谢谢! 解决方案 通过组合 Robert Crovella 在评论部分中提供的 ..
发布时间:2021-04-29 20:49:21 Python

计算CUDA中两个三角形之间的角度

我想计算3D空间中两个三角形之间的角度.两个三角形将始终恰好共享两个点.例如 三角形1: Point1(x1,y1,z1),点2(x2,y2,z2),Point3(x3,y3,z3). 三角形2: Point1(x1,y1,z1),点2(x2,y2,z2),Point4(x4,y4,z4). 在CUDA中是否可以有效地计算它们之间的角度? 解决方案 对于每个平面,您需 ..
发布时间:2021-04-27 20:12:29 其他开发

运行多GPU CUDA示例(SimpleP2P)时P2P内存访问失败

我正在尝试解决运行CUDA示例中包含的simpleP2P示例程序时发现的错误.错误如下: $ ./simpleP2P[./simpleP2P]-正在启动...正在检查多个GPU ...支持CUDA的设备数量:2>GPU0 ="Tesla K20c" IS具有点对点(P2P)功能>GPU1 ="Tesla K20c" IS具有点对点(P2P)功能正在检查GPU是否支持对等内存访问...>来自特斯 ..
发布时间:2021-04-27 20:11:23 其他开发

与cudaMemcpyToSymbol的麻烦

我正在尝试复制到恒定内存中.但是我不能因为对cudaMemcpyToSymbol函数用法的误解.我试图遵循此 这是一些代码 __ device__ __constant__ double var1;__device__ __constant__ int var2;int main(){//...这里有一些代码...double var1ToCopy = 10.1;int var2ToCo ..
发布时间:2021-04-27 20:11:01 其他开发