gpu相关内容
我是 CUDA 的新手,需要帮助理解一些事情.我需要帮助并行化这两个 for 循环.具体如何设置dimBlock 和dimGrid 使其运行得更快.我知道这看起来像 sdk 中的向量添加示例,但该示例仅适用于方阵,当我尝试修改 128 x 1024 矩阵的代码时,它无法正常工作. __global__ void mAdd(float* A, float* B, float* C){for(int
..
我有一个用 Erlang 编写的神经网络,我刚买了一块 GeForce GTX 260 卡,上面有 240 核 GPU.使用 CUDA 作为胶水在显卡上运行它是否微不足道? 解决方案 不,使用 CUDA 不是一件小事. CUDA 编程模型基本上使用 C(有一些附加功能),但为了充分利用 GPGPU 的功能,您必须确保您的算法遵循 CUDA 指南.(请参阅 NVidia CUDA 编程
..
我的 GPU 是 GeForce MX150,pascal 架构,CC.6.1、CUDA 9.1、Windows 10.虽然我的 GPU 是 pascal 但协作组不起作用.我想用它进行块间同步. 我发现我的 tcc 模式未激活. 我还发现它在 Windows 中的 wddm 中不活跃. 如何使用协作组? 如何在 Windows 中激活 tcc 模式? 感谢您的回复. 解决方案
..
我必须在 GPU 中实现以下算法 for(int I = 0; I 每次迭代都依赖于前一次,因此并行化很困难.我不确定原子操作在这里是否有效.我能做什么? 编辑: VAR1 和 VAR2 都是一维数组. VAR1[0] = 1 解决方案 这属于称为 重复关系.根据递推关系的结构,可能存在封闭形式的解决方案,描述如何单独计算每个元素(即并行,无递归).早期的开创性论文之一(关
..
我知道这听起来很奇怪,但这是我的场景: 我需要进行矩阵-矩阵乘法 (A(n*k)*B(k*n)),但我只需要计算输出矩阵的对角元素.我搜索了 cublas 库,但没有找到任何可以做到这一点的 2 级或 3 级函数.因此,我决定将 A 的每一行和 B 的每一列分配到 CUDA 线程中.对于每个线程(idx),我需要计算点积“A[idx,:]*B[:,idx]"并将其保存为对应的对角线输出.现在
..
我在使用 cuda 理解 NVIDIA gpu 架构中的线程时遇到了一些麻烦. 请任何人澄清这些信息:一个 8800 gpu 有 16 个 SM,每个 8 个 SP.所以我们有 128 个 SP. 我正在观看 stanford 的视频演示,它说每个 SP 都能够同时运行 96 个线程.这是否意味着它(SP)可以同时运行 96/32=3 个经线? 此外,由于每个 SP 可以运行 9
..
clock() 不够准确. 解决方案 使用 CUDA 事件测量内核或 CUDA 操作(memcpy 等)的时间: //准备cudaEvent_t 开始,停止;cudaEventCreate(&start);cudaEventCreate(&stop);//开始记录cudaEventRecord(开始,0);//在 GPU 上做一些事情MyKernel
..
我在带有 CUDA 5 的 Linux 上使用具有计算能力 35 的 tesla k20.通过一个简单的子内核调用,它给出了一个编译错误:未解析的外部函数 cudaLaunchDevice 我的命令行看起来像: nvcc --compile -G -O0 -g -gencode arch=compute_35 , code=sm_35 -x cu -o fill.cu fill.o 我在
..
假设我在 GPU 上有一个维度为 A*B 的矩阵,其中 B(列数)是假设 C 风格的主要维度.CUDA(或cublas)中是否有任何方法可以将此矩阵转置为FORTRAN样式,其中A(行数)成为主要维度? 如果能在host->device传输过程中进行转置就更好了,同时保持原始数据不变. 解决方案 CUDA SDK 包括一个 矩阵转置,你可以看到这里的例子关于如何实现的代码,从简单的实
..
我正在尝试安装 CUDA,但收到一条消息,提示“找不到支持的 Visual Studio 版本".我认为这是因为我使用的是 Visual Studio 2017(社区),而 CUDA 目前最多只支持 Visual Studio 2015.不幸的是,Microsoft 不允许我在不支付订阅费的情况下下载旧版本的 Visual Studio. 有没有办法解决与 VS 2017 的兼容性问题,或者
..
我有一台非常简单的带有 i3 处理器的东芝笔记本电脑.另外,我没有任何昂贵的显卡.在显示设置中,我看到 Intel(HD) Graphics 作为显示适配器.我打算学习一些cuda编程.但是,我不确定是否可以在我的笔记本电脑上做到这一点,因为它没有任何支持 nvidia 的 cuda 的 GPU. 事实上,我怀疑,如果我什至有一个 GPU o_o 因此,如果有人能告诉我是否可以使用当前
..
显卡通常是否将其输出写入内存中我可以访问的某个位置?我必须使用驱动程序吗?如果可以,我可以使用 OpenGL 吗? 我想知道是否可以在 Linux 上“捕获"VM 的输出,该 VM 可以直接访问 GPU,并且正在运行 Windows.理想情况下,我可以直接从内存访问输出,而无需接触 GPU,因为此代码将能够在 Linux 主机上运行. 另一种选择是编写一个 Windows 驱动程序,该
..
我有一台配备 RTX 2060 GPU 的笔记本电脑,我正在使用 Keras 和 TF 2 在其上训练 LSTM.我还通过 nvidia-smi 监视 gpu 的使用,我注意到 jupyter notebook 和 TF 的使用率最高为 35%,通常 gpu 的使用率在 10-25% 之间. 目前条件下,训练这个模型需要7个多小时,我想知道是我做错了什么还是Keras和TF的限制? 我
..
我目前正在为我的硕士学位做一个深度学习项目.我想安装 keras 库,所以当我开始安装 Theano 和 tensorflow 时,我看到我必须安装 CUDA.但是我的笔记本电脑带有英特尔高清显卡.所以我的问题是,如果我无论如何都安装它们,它会起作用.谢谢 解决方案 你可以在没有 cuda 的情况下安装和使用 keras,但你不能用 intel 高清显卡加速 gpu. 如果你使用 T
..
当我在集群上成功安装 tensorflow 后,我立即运行 mnist demo 来检查它是否运行良好,但在这里我想到了一个问题.我不知道这是怎么回事,但看起来错误来自 CUDA python3 -m tensorflow.models.image.mnist.convolutional我 tensorflow/stream_executor/dso_loader.cc:108] 在本地成功打开
..
我用 Sequence 类创建了一个 DataGenerator. 导入 tensorflow.keras 作为 keras从 skimage.io 导入 imread从 skimage.transform 导入调整大小将 numpy 导入为 np导入数学从 tensorflow.keras.utils 导入序列这里,`x_set` 是图像的路径列表,`y_set` 是相关的类.类数据生成器(序
..
我想知道 pytorch 是否在使用我的 GPU.如果在此过程中 GPU 有任何活动,可以使用 nvidia-smi 进行检测,但我想要用 python 脚本编写的内容. 有没有办法做到这一点? 解决方案 这应该有效: 导入火炬torch.cuda.is_available()>>>真的torch.cuda.current_device()>>>0torch.cuda.device
..
我需要获取有关 CPU/GPU/内存的任何信息.核心数、内存值、内存和 CPU 使用率...我找到了一种为 IE 执行此操作的方法:如何使用 JavaScript 查找硬件信息 其他浏览器的解决方案我不知道.知道怎么做吗?也许 webgl 可以访问有关您计算机的信息?或闪光?或任何其他技术? 非常感谢 解决方案 此代码将打印 GPU 信息,并列出您可以使用此浏览器的性能对象获得
..
我曾尝试在 Google Cloud Platform 中创建 GPU 实例,但每次尝试创建实例时,它都会显示“您已达到 0 GPU NVIDIA K80 的限制". 我正在尝试在 us-east1-c/us-west1-b 中创建一个具有 4 个 vCPU、8-15 GB 内存、1 个 GPU 的实例. 请帮助解决以下问题. 解决方案 按照指定的顺序执行所有步骤,否则在配额页
..
这个 ffmpeg 示例演示了如何进行硬件解码:https://github.com/FFmpeg/FFmpeg/blob/release/4.2/doc/examples/hw_decode.c 在第 109 行,它执行以下操作: /* 从 GPU 检索数据到 CPU */如果((ret = av_hwframe_transfer_data(sw_frame,frame,0)) 我想避
..