gpu相关内容

在 OpenGL 中处理 FBO 的最佳方法是什么?

我很久以来就想知道处理 OpenGL FrameBuffer 对象 (FBO) 的最佳方法是什么.切换 FBO 的成本可能很高,但也需要定义新的附件. 你是如何快速做到的? 我在这三个之间犹豫: 1 个 FBO 用于一切,更改附件但不要在 FBO 之间切换 为渲染路径中的每个渲染目标(大小 + 格式)提供 1 个 FBO.这意味着我将为类似的渲染目标重用相同的 FBO.但是 ..
发布时间:2021-12-19 18:22:37 其他开发

为什么 OpenGL 不支持多索引缓冲?

为什么 OpenGL 不支持顶点属性的多个索引缓冲区(目前)? 对我来说,它似乎非常有用,因为您可以重用属性,并且可以更好地控制几何图形的渲染. 为什么所有属性数组都必须采用相同的索引,或者此功能在不久的将来是否可用? 解决方案 OpenGL(和 D3D.和 Metal.和 Mantle.和 Vulkan)不支持这个,因为硬件不支持这个.硬件不支持这一点,因为对于绝大多数网格数 ..
发布时间:2021-12-19 17:44:33 其他开发

构建 Keras 项目以在 GPU 中实现可重现的结果

我正在编写一个 tensorflow.Keras 包装器来执行机器学习实验. 我需要我的框架能够执行配置 yaml 文件中指定的实验并在 GPU 中并行运行. 然后我需要保证,如果我再次运行该实验,即使不是完全相同的结果,我也会得到一些合理接近的结果. 为了确保这一点,我的训练脚本在开头包含这些行,遵循 官方文档: # 设置随机种子随机种子(种子)np.random.seed( ..
发布时间:2021-12-19 13:11:59 Python

如何使用 numba 在 GPU 上推广快速矩阵乘法

最近我一直在尝试使用 Numba 库在 Python 中进行 GPU 编程.我一直在使用那里的教程在他们的网站上阅读它,目前我停留在他们的示例上,可以在这里找到:https://numba.pydata.org/numba-doc/latest/cuda/examples.html.我试图将快速矩阵乘法的示例概括一下(形式为 A*B=C).在测试时,我注意到维度不能被每块线程数 (TPB) 完全整 ..
发布时间:2021-12-18 23:54:40 Python

GPU 上的 Tensorflow OOM

我正在 Tensorflow 中的 LSTM-RNN 上训练一些音乐数据,遇到了一些我不明白的 GPU 内存分配问题:当实际上似乎还有足够的 VRAM 可用时,我遇到了 OOM.一些背景:我正在 Ubuntu Gnome 16.04 上工作,使用 GTX1060 6GB、Intel Xeon E3-1231V3 和 8GB RAM.所以现在首先是我可以理解的错误消息部分,在最后,我将再次添加整个错 ..
发布时间:2021-12-09 22:58:49 其他开发

具有多个 GPU 的 Tensorflow 多个会话

我有一个带有 2 个 GPU 的工作站,我正在尝试同时运行多个 tensorflow 作业,因此我可以一次训练多个模型,等等. 例如,我尝试通过在 script1.py 中使用的 python API 将会话分成不同的资源: with tf.device("/gpu:0"):# 做东西 在 script2.py 中: with tf.device("/gpu:1"):# 做东西 在 ..
发布时间:2021-12-09 22:50:50 其他开发

在 Tensorflow GPU 中训练一个简单的模型比 CPU 慢

我在 Tensorflow 中设置了一个简单的线性回归问题,并在 1.13.1 中使用 Tensorflow CPU 和 GPU 创建了简单的 conda 环境(在 NVIDIA Quadro P600 的后端使用 CUDA 10.0). 但是,看起来GPU环境总是比CPU环境花费更长的时间.我正在运行的代码如下. 导入时间进口警告将 numpy 导入为 np进口scipy将张量流导入为 ..
发布时间:2021-12-09 22:40:42 Python

模型执行后清除 Tensorflow GPU 内存

我已经训练了 3 个模型,现在正在运行代码,依次加载 3 个检查点中的每一个,并使用它们运行预测.我正在使用 GPU. 当第一个模型加载时,它会预先分配整个 GPU 内存(我想要处理第一批数据).但是当它完成时它不会卸载内存.当加载第二个模型时,同时使用 tf.reset_default_graph() 和 with tf.Graph().as_default() GPU 内存仍然被第一个模 ..
发布时间:2021-12-09 22:19:03 Python

为什么安装 conda 后 Tensorflow 无法识别我的 GPU?

我是深度学习的新手,过去 2 天我一直在尝试在我的电脑上安装 tensorflow-gpu 版本,但徒劳无功.我避免安装 CUDA 和 cuDNN 驱动程序,因为由于许多兼容性问题,几个在线论坛不推荐它.由于我之前已经在使用 python 的 conda 发行版,因此我选择了 conda install -c anaconda tensorflow-gpu,如其官方网站所述:https://ana ..
发布时间:2021-12-09 22:13:40 Python

有没有办法确定 TensorFlow 使用了多少 GPU 内存?

Tensorflow 倾向于在其 GPU 上预分配整个可用内存.对于调试,有没有办法知道实际使用了多少内存? 解决方案 (1) Timeline 用于记录内存分配.下面是它的用法示例: run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)run_metadata = tf.RunMetadata()总结,_ ..
发布时间:2021-12-09 22:10:46 其他开发

如何使用 TensorFlow GPU?

如何在 Python 3.6 x64 中使用 TensorFlow GPU 版本而不是 CPU 版本? 将 tensorflow 导入为 tf Python 使用我的 CPU 进行计算. 我可以注意到它,因为我有一个错误: 您的 CPU 支持此 TensorFlow 二进制文件不支持的指令编译使用:AVX2 我已经安装了 tensorflow 和 tensorflow-gpu. ..
发布时间:2021-12-09 22:02:18 Python

如何在 tensorflow 中获取当前可用的 GPU?

我有使用分布式 TensorFlow 的计划,并且我看到 TensorFlow 可以使用 GPU 进行训练和测试.在集群环境中,每台机器可能有 0 个或 1 个或更多 GPU,我想在尽可能多的机器上将我的 TensorFlow 图运行到 GPU 中. 我发现在运行 tf.Session() 时,TensorFlow 会在日志消息中提供有关 GPU 的信息,如下所示: 我tensorflow ..
发布时间:2021-12-09 21:54:48 Python

如何为 CUDA 内核选择网格和块尺寸?

这是一个关于如何确定CUDA网格、块和线程大小的问题.这是对此处发布的问题的附加问题. 在此链接之后,talonmies 的答案包含一个代码片段(见下文).我不明白评论“通常由调整和硬件限制选择的值". 我在 CUDA 文档中没有找到很好的解释或说明来解释这一点.总之,我的问题是如何确定最佳 blocksize(线程数)给定以下代码: const int n = 128 * 1024 ..
发布时间:2021-12-08 11:04:26 其他开发

是否可以在 AMD GPU 上运行 CUDA?

我想将我的技能扩展到 GPU 计算.我熟悉光线追踪和实时图形(OpenGL),但下一代图形和高性能计算似乎是在 GPU 计算或类似的东西. 我目前在我的家用电脑上使用 AMD HD 7870 显卡.我可以为此编写 CUDA 代码吗?(我的直觉是否定的,但由于 Nvidia 发布了编译器二进制文件,我可能是错的). 第二个更普遍的问题是,我从哪里开始使用 GPU 计算?我敢肯定这是一个经 ..
发布时间:2021-11-27 11:31:00 其他开发

3D 图形选择 - 这种情况的最佳方法是什么

我正在开展一个项目,该项目允许用户在场景中选择 3d 对象,我想知道每个人都认为什么是处理这种特定场景的最佳方式. 基本上,我们有一个包含至少 100 个对象(它们是低多边形但由至少约 12-15 个三角形组成)和多达大约 1000-2000 个对象的场景. 并非所有对象都始终是“可拾取的",因为有些对象会遮挡其他对象,因此“可拾取"的对象可能落在 800-1500 之间(取决于场景的 ..
发布时间:2021-11-25 03:50:00 C#

现代 GPU 上的纹理更改(和其他状态更改)成本

我正在编写一个基于场景图的图形引擎用于建模.我正在使用 XNA 4.在我读过的很多地方,在渲染过程中应该最小化纹理变化(和其他状态变化)(所以我必须按材质等对我的图元进行排序). 我在 XNA 4 中创建了一个小型测试应用程序,它使用单个纹理渲染数百个 stanford bunny 模型,然后切换 2 个不同的纹理.渲染时间没有区别(但是我使用了大约 100x100 的小纹理). 所以 ..
发布时间:2021-11-25 02:24:16 C#

使用 3D 加速的图形渲染

我们为庞大的数据集生成图表.我们说的是每秒 4096 个样本,每张图 10 分钟.一个简单的计算使得每个折线图有 4096 * 60 * 10 = 2457600 个样本.每个样本都是一个双精度(8 字节)精度的 FP.此外,我们在一个屏幕上渲染多个线图,最多大约一百个.这使我们能够在单个屏幕中渲染大约 2500 万个样本.使用常识和简单的技巧,我们可以使用 CPU 在 2D 画布上绘制此代码,从 ..
发布时间:2021-11-25 02:21:20 C#/.NET