gpu相关内容
因此,我对这个问题的古老评论仍然获得好评:What's the origin of this GLSL rand() one-liner? 这让我想到,一个好的GLSL散列函数应该是什么样子的?它有明显的用例,如柏林噪声。在一个好的实现中,我会寻找一些属性。 在不同精度(中值、高值)下稳定。这可以是可配置的。 应在ES2中可用,因此不能使用整型支持 仅ALU,无纹理 不是在寻找加
..
我正在尝试从HDFS读取200个镶木地板文件,然后尝试使用4个GPU训练一个模型。我的机器上也有48个vcore可用。如果我只使用GPU工作器启动集群,那么读取部分将非常慢(因为它只使用分配给GPU工作器的4个CPU工作器,除非您在单独的外壳上运行它们,否则您不可能真正运行比您拥有的GPU数量更多的工作器,然后情况变得很糟糕,因为内存管理问题是您自己的。)我想使用CPU工作器读取文件,与CPU工作
..
我有一台安装了conda的ubuntu服务器。我创建了一个名为TF-GPU的虚拟环境,并在其中安装了TensorFlow 2。Ubuntu服务器安装了一块安装了GPU的GeForce GTX显卡。当我在使用TF-GPU环境的jupyter笔记本电脑中运行下面的代码时,它显示0个可用的GPU。安装在我的TF-GPU环境中的模块也如下所示。为什么我的tensorflow 2环境看不到我的GPU?我需要
..
我正在评估SkiaSharp库(来自Nuget,版本1.59.3)。一切都渲染得很好。但Skia似乎没有使用GPU来加速渲染。Windows 10任务管理器没有检测到我的测试应用程序使用了任何GPU。我正在使用Next命令创建SKCanvas: using (SKBitmap bitmap = new SKBitmap(gWidth, gHeight, SKColorType.Bgra88
..
我想以最快的方式绘制高使用率的图形。如果我使用标准的C#图形回调(es.graph ics.Drawline),我做得对吗?或者我应该使用不同的库? 推荐答案 Graphics.DrawLine是gdi+调用。如果您使用的是Windows窗体并使用System.Drawing类进行绘图,则您使用的是GDI+,它不是硬件加速的。要获得硬件加速,您需要使用WPF来代替WinForms,或者
..
我可以列出使用以下TensorFlow代码的GPU设备: import tensorflow as tf from tensorflow.python.client import device_lib print(device_lib.list_local_devices()) 结果为: [name: "/device:CPU:0" device_type: "CPU" mem
..
我正在尝试使用gpuArray来加速我的计算。但是,下面的代码并非如此。 for i=1:10 calltest; end function [t1,t2]=calltest N=10; tic u=gpuArray(rand(1,N).^(1./[N:-1:1])); t1=toc tic u2=rand(1,N).^(1./[N:-1:1]); t2=toc end 从哪里
..
您好,我是DL和TensorFlow的初学者 我创建了一个CNN(您可以看到下面的模型) model = tf.keras.Sequential() model.add(tf.keras.layers.Conv2D(filters=64, kernel_size=7, activation="relu", input_shape=[512, 640, 3])) model.add(t
..
我现在正在学习Boost::Compute OpenCL包装库。 我遇到复制过程非常慢的问题。 如果我们将CPU到CPU的复制速度调整为1,那么GPU到CPU、GPU到GPU、CPU到GPU的复制速度有多快? 我不需要精确的数字。仅仅是一个大概的想法就会有很大的帮助。例如,CPU-CPU至少比GPU-GPU快10倍。 推荐答案 没有人回答我的问题。 所以我写了一个程序来检查
..
我有一个我不久前编写的温度监控程序,它监控我的AMD显卡上的温度和风扇,检查风扇故障或过热。 它的问题是,它需要事先知道哪个进程将使用GPU(图形处理器),以便终止它或优雅地停止它,以避免过热。 为了使我的程序更动态,我需要一种方法来找出哪个进程正在使用GPU,很像哪个进程正在使用CPU时间(任务管理器)。Sysinterals的Process Explorer就是这样一个应用程序。
..
我正在尝试培训一个网络,但我得到了, 我将我的批处理大小设置为300,我得到了这个错误,但即使我将它减少到100,我仍然得到这个错误,更令人沮丧的是,对于在~1200个图像上运行10个纪元,它需要大约40分钟,任何建议是哪里出了问题,以及我如何加快这个过程! 任何提示都将是非常有帮助的,提前谢谢。 -----------------------------------------------
..
我在一台配备A100图形处理器的服务器上运行。在服务器重置后尝试运行TensorFlow代码时,TensorFlow无法识别GPU。运行tf.config.list_physical_devices('GPU')生成CUDA_ERROR_NOT_INITIALIZED: 2021-09-09 07:41:42.956917: I tensorflow/stream_executor/plat
..
我有大约50000个图像和注释文件,用于训练YOLOv5对象检测模型。我已经训练了一个模型,在另一台计算机上使用CPU没有问题,但它需要太长时间,所以我需要GPU培训。我的问题是,当我尝试使用GPU进行训练时,我总是收到这个错误: OSError: [WinError 1455] The paging file is too small for this operation to compl
..
我用火炬。在计算中,我将一些数据和运算符A移到了GPU中。在中间步骤中,我将数据和运算符B移到CPU并继续前进。 我的问题是: 我的运算符B非常耗费内存,无法在GPU中使用。这是否会影响反向传播(某些部分在GPU中计算,其他部分在CPU中计算)? 推荐答案 Pytorch跟踪张量的位置。如果您使用.cpu()或.to('cpu')pytorch的本机命令,则应该没有问题。
..
考虑主机可见的缓冲区(主要与流缓冲区相关,即由VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT | VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT内存支持的缓冲区),让我们假设以下使用模式: 将新数据写入主机上的映射地址(在正确同步之后)。 使用步骤1中写入的内容读取队列族A上的缓冲区。 将新数据写入主机上的映射地址(在正确同步之后)。 使
..
cl_device_id定义为";tyecif struct_cl_device_id*cl_device_id";。 在OpenCL方法中,clGetDeviceIDs;device";参数的类型为";cl_device_id*";,并返回指向可用设备列表的指针。我试图使用memcpy将整个结构传递给另一个变量。为此,我需要知道";_cl_devi
..
我目前正在使用挡路矩阵乘法在OpenCL内核中乘以字节矩阵:我将矩阵细分为瓦片(32x32),将这些瓦片加载到本地内存中,然后将其写回全局内存。 目前,内存访问是瓶颈。我正在尝试对其进行优化。 假设我要乘以C=A x B,其中A、B、C是字符* A(NDIM,PDIM)、B(PDIM,MDim)、C(Ndim,MDim)。 我当前将A设置为行主格式,B设置为列主格式,以确保
..
我编写了一个计算两个矩阵乘积的小型OpenCL应用程序。现在我注意到,如果矩阵的大小超过8192x8192,则性能会显著下降(16384 x 16384的计算速度要慢约80倍),甚至串行实现的速度也要快5倍以上。以下是主机代码: /*Make some includes and definitions here*/ #include "stdafx.h" #include
..
我正在编写一个OpenCL程序,我希望使用DMA将数据从帧采集卡传输到GPU。如何获取GPU上OpenCL缓冲区的物理地址以执行此操作? 推荐答案 使用OpenCL,您无法获取缓冲区的物理GPU地址。 但是,您可以将缓冲区的一个区域直接映射到主机内存,从而允许使用标准C/C++代码(如memcpy)将内存复制进来和复制出来。请参阅clEnqueue eMapBuffer。
..
我有一台AMD RX 570 4G, OpenCL告诉我,每个组最多可以使用256个工作组和256个工作项目. 假设我使用所有256个工作组,每个工作组包含256个工作项目 现在,每个工作项的最大私有内存大小是多少? 专用内存是否等于总vRAM(4 GB)除以总工作项(256x256)? 还是等于Cache如果等于Cache,是怎么回事? GPU 私有内存空间是
..