gpu相关内容

有没有好的GLSL散列函数?

因此,我对这个问题的古老评论仍然获得好评:What's the origin of this GLSL rand() one-liner? 这让我想到,一个好的GLSL散列函数应该是什么样子的?它有明显的用例,如柏林噪声。在一个好的实现中,我会寻找一些属性。 在不同精度(中值、高值)下稳定。这可以是可配置的。 应在ES2中可用,因此不能使用整型支持 仅ALU,无纹理 不是在寻找加 ..
发布时间:2022-09-22 15:05:52 其他开发

使用CPU工作器进行数据争论,并使用带DASK的GPU工作器培训xgBoost

我正在尝试从HDFS读取200个镶木地板文件,然后尝试使用4个GPU训练一个模型。我的机器上也有48个vcore可用。如果我只使用GPU工作器启动集群,那么读取部分将非常慢(因为它只使用分配给GPU工作器的4个CPU工作器,除非您在单独的外壳上运行它们,否则您不可能真正运行比您拥有的GPU数量更多的工作器,然后情况变得很糟糕,因为内存管理问题是您自己的。)我想使用CPU工作器读取文件,与CPU工作 ..
发布时间:2022-08-13 10:39:59 其他开发

TensorFlow 2未找到GPU设备

我有一台安装了conda的ubuntu服务器。我创建了一个名为TF-GPU的虚拟环境,并在其中安装了TensorFlow 2。Ubuntu服务器安装了一块安装了GPU的GeForce GTX显卡。当我在使用TF-GPU环境的jupyter笔记本电脑中运行下面的代码时,它显示0个可用的GPU。安装在我的TF-GPU环境中的模块也如下所示。为什么我的tensorflow 2环境看不到我的GPU?我需要 ..
发布时间:2022-08-09 10:30:59 其他开发

SkiaSharp和GPU加速

我正在评估SkiaSharp库(来自Nuget,版本1.59.3)。一切都渲染得很好。但Skia似乎没有使用GPU来加速渲染。Windows 10任务管理器没有检测到我的测试应用程序使用了任何GPU。我正在使用Next命令创建SKCanvas: using (SKBitmap bitmap = new SKBitmap(gWidth, gHeight, SKColorType.Bgra88 ..
发布时间:2022-08-03 18:10:31 其他开发

C#本身是否将GPU用于图形处理?

我想以最快的方式绘制高使用率的图形。如果我使用标准的C#图形回调(es.graph ics.Drawline),我做得对吗?或者我应该使用不同的库? 推荐答案 Graphics.DrawLine是gdi+调用。如果您使用的是Windows窗体并使用System.Drawing类进行绘图,则您使用的是GDI+,它不是硬件加速的。要获得硬件加速,您需要使用WPF来代替WinForms,或者 ..
发布时间:2022-08-03 18:07:10 C#/.NET

内存复制速度比较CPU<;->;GPU

我现在正在学习Boost::Compute OpenCL包装库。 我遇到复制过程非常慢的问题。 如果我们将CPU到CPU的复制速度调整为1,那么GPU到CPU、GPU到GPU、CPU到GPU的复制速度有多快? 我不需要精确的数字。仅仅是一个大概的想法就会有很大的帮助。例如,CPU-CPU至少比GPU-GPU快10倍。 推荐答案 没有人回答我的问题。 所以我写了一个程序来检查 ..
发布时间:2022-06-27 19:53:18 其他开发

如何获取每个进程的GPU使用率?

我有一个我不久前编写的温度监控程序,它监控我的AMD显卡上的温度和风扇,检查风扇故障或过热。 它的问题是,它需要事先知道哪个进程将使用GPU(图形处理器),以便终止它或优雅地停止它,以避免过热。 为了使我的程序更动态,我需要一种方法来找出哪个进程正在使用GPU,很像哪个进程正在使用CPU时间(任务管理器)。Sysinterals的Process Explorer就是这样一个应用程序。 ..
发布时间:2022-06-27 19:46:40 其他开发

正在耗尽CUDA内存

我正在尝试培训一个网络,但我得到了, 我将我的批处理大小设置为300,我得到了这个错误,但即使我将它减少到100,我仍然得到这个错误,更令人沮丧的是,对于在~1200个图像上运行10个纪元,它需要大约40分钟,任何建议是哪里出了问题,以及我如何加快这个过程! 任何提示都将是非常有帮助的,提前谢谢。 ----------------------------------------------- ..
发布时间:2022-06-23 18:16:42 其他开发

尝试训练YOLOv5对象检测模型时,页面文件太小,无法完成此操作

我有大约50000个图像和注释文件,用于训练YOLOv5对象检测模型。我已经训练了一个模型,在另一台计算机上使用CPU没有问题,但它需要太长时间,所以我需要GPU培训。我的问题是,当我尝试使用GPU进行训练时,我总是收到这个错误: OSError: [WinError 1455] The paging file is too small for this operation to compl ..
发布时间:2022-04-12 21:05:32 Python

切换GPU设备会影响PyTorch反向传播中的梯度吗?

我用火炬。在计算中,我将一些数据和运算符A移到了GPU中。在中间步骤中,我将数据和运算符B移到CPU并继续前进。 我的问题是: 我的运算符B非常耗费内存,无法在GPU中使用。这是否会影响反向传播(某些部分在GPU中计算,其他部分在CPU中计算)? 推荐答案 Pytorch跟踪张量的位置。如果您使用.cpu()或.to('cpu')pytorch的本机命令,则应该没有问题。 ..
发布时间:2022-04-08 14:40:45 其他开发

在不同队列族上重复使用相同的主机可见缓冲区

考虑主机可见的缓冲区(主要与流缓冲区相关,即由VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT | VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT内存支持的缓冲区),让我们假设以下使用模式: 将新数据写入主机上的映射地址(在正确同步之后)。 使用步骤1中写入的内容读取队列族A上的缓冲区。 将新数据写入主机上的映射地址(在正确同步之后)。 使 ..
发布时间:2022-04-04 20:43:11 其他开发

优化内存访问OpenCL

我目前正在使用挡路矩阵乘法在OpenCL内核中乘以字节矩阵:我将矩阵细分为瓦片(32x32),将这些瓦片加载到本地内存中,然后将其写回全局内存。 目前,内存访问是瓶颈。我正在尝试对其进行优化。 假设我要乘以C=A x B,其中A、B、C是字符* A(NDIM,PDIM)、B(PDIM,MDim)、C(Ndim,MDim)。 我当前将A设置为行主格式,B设置为列主格式,以确保 ..
发布时间:2022-03-27 19:00:05 其他开发

OpenCL矩阵乘法速度

我编写了一个计算两个矩阵乘积的小型OpenCL应用程序。现在我注意到,如果矩阵的大小超过8192x8192,则性能会显著下降(16384 x 16384的计算速度要慢约80倍),甚至串行实现的速度也要快5倍以上。以下是主机代码: /*Make some includes and definitions here*/ #include "stdafx.h" #include ..
发布时间:2022-03-27 18:57:18 C/C++开发

如何获取用于DMA的GPU内存的物理地址?(OpenCL)

我正在编写一个OpenCL程序,我希望使用DMA将数据从帧采集卡传输到GPU。如何获取GPU上OpenCL缓冲区的物理地址以执行此操作? 推荐答案 使用OpenCL,您无法获取缓冲区的物理GPU地址。 但是,您可以将缓冲区的一个区域直接映射到主机内存,从而允许使用标准C/C++代码(如memcpy)将内存复制进来和复制出来。请参阅clEnqueue eMapBuffer。 ..
发布时间:2022-03-27 18:53:49 其他开发

OpenCL每个工作项的最大私有内存大小

我有一台AMD RX 570 4G, OpenCL告诉我,每个组最多可以使用256个工作组和256个工作项目. 假设我使用所有256个工作组,每个工作组包含256个工作项目 现在,每个工作项的最大私有内存大小是多少? 专用内存是否等于总vRAM(4 GB)除以总工作项(256x256)? 还是等于Cache如果等于Cache,是怎么回事? GPU 私有内存空间是 ..
发布时间:2022-03-27 18:34:11 其他开发