gpu 第7页 - IT屋-程序员软件开发技术分享社区

CUDA如何获取网格、块、线程大小和并行化非方阵计算

我是 CUDA 的新手，需要帮助理解一些事情.我需要帮助并行化这两个 for 循环.具体如何设置dimBlock 和dimGrid 使其运行得更快.我知道这看起来像 sdk 中的向量添加示例，但该示例仅适用于方阵，当我尝试修改 128 x 1024 矩阵的代码时，它无法正常工作. __global__ void mAdd(float* A, float* B, float* C){for(int ..

发布时间：2022-01-05 19:10:15 c++ visual-studio-2008 gpu cuda C/C++开发

如何使已编写的并发程序在 GPU 阵列上运行?

我有一个用 Erlang 编写的神经网络，我刚买了一块 GeForce GTX 260 卡，上面有 240 核 GPU.使用 CUDA 作为胶水在显卡上运行它是否微不足道? 解决方案不，使用 CUDA 不是一件小事. CUDA 编程模型基本上使用 C(有一些附加功能)，但为了充分利用 GPGPU 的功能，您必须确保您的算法遵循 CUDA 指南.(请参阅 NVidia CUDA 编程 ..

发布时间：2021-12-30 21:45:38 concurrency erlang cuda parallel-processing gpu 其他开发

如何在 windows 中使用 CUDA 的协作组功能

我的 GPU 是 GeForce MX150，pascal 架构，CC.6.1、CUDA 9.1、Windows 10.虽然我的 GPU 是 pascal 但协作组不起作用.我想用它进行块间同步. 我发现我的 tcc 模式未激活. 我还发现它在 Windows 中的 wddm 中不活跃. 如何使用协作组? 如何在 Windows 中激活 tcc 模式? 感谢您的回复. 解决方案 ..

发布时间：2021-12-30 21:43:01 parallel-processing cuda nvidia gpu gpu-cooperative-groups 其他开发

GPU实现中的顺序操作

我必须在 GPU 中实现以下算法 for(int I = 0; I 每次迭代都依赖于前一次，因此并行化很困难.我不确定原子操作在这里是否有效.我能做什么? 编辑: VAR1 和 VAR2 都是一维数组. VAR1[0] = 1 解决方案这属于称为重复关系.根据递推关系的结构，可能存在封闭形式的解决方案，描述如何单独计算每个元素(即并行，无递归).早期的开创性论文之一(关 ..

发布时间：2021-12-30 21:37:26 cuda parallel-processing gpu 其他开发

CUDA 内核可以调用 cublas 函数吗?

我知道这听起来很奇怪，但这是我的场景: 我需要进行矩阵-矩阵乘法 (A(n*k)*B(k*n))，但我只需要计算输出矩阵的对角元素.我搜索了 cublas 库，但没有找到任何可以做到这一点的 2 级或 3 级函数.因此，我决定将 A 的每一行和 B 的每一列分配到 CUDA 线程中.对于每个线程(idx)，我需要计算点积“A[idx,:]*B[:,idx]"并将其保存为对应的对角线输出.现在 ..

发布时间：2021-12-30 21:30:17 parallel-processing cuda gpu cublas 其他开发

帮助我理解 cuda

我在使用 cuda 理解 NVIDIA gpu 架构中的线程时遇到了一些麻烦. 请任何人澄清这些信息:一个 8800 gpu 有 16 个 SM，每个 8 个 SP.所以我们有 128 个 SP. 我正在观看 stanford 的视频演示，它说每个 SP 都能够同时运行 96 个线程.这是否意味着它(SP)可以同时运行 96/32=3 个经线? 此外，由于每个 SP 可以运行 9 ..

发布时间：2021-12-30 21:25:51 cuda gpu parallel-processing 其他开发

使用CUDA时如何测量每个块的执行时间?

clock() 不够准确. 解决方案使用 CUDA 事件测量内核或 CUDA 操作(memcpy 等)的时间: //准备cudaEvent_t 开始，停止；cudaEventCreate(&start);cudaEventCreate(&stop);//开始记录cudaEventRecord(开始，0)；//在 GPU 上做一些事情MyKernel ..

发布时间：2021-12-30 21:24:07 cuda gpu parallel-processing 其他开发

cuda 5.0 动态并行性错误:ptxas 致命.未解析的外部函数 'cudaLaunchDevice

我在带有 CUDA 5 的 Linux 上使用具有计算能力 35 的 tesla k20.通过一个简单的子内核调用，它给出了一个编译错误:未解析的外部函数 cudaLaunchDevice 我的命令行看起来像: nvcc --compile -G -O0 -g -gencode arch=compute_35 , code=sm_35 -x cu -o fill.cu fill.o 我在 ..

发布时间：2021-12-30 21:23:39 cuda parallel-processing gpu 其他开发

如何在 CUDA/cublas 中转置矩阵?

假设我在 GPU 上有一个维度为 A*B 的矩阵，其中 B(列数)是假设 C 风格的主要维度.CUDA(或cublas)中是否有任何方法可以将此矩阵转置为FORTRAN样式，其中A(行数)成为主要维度? 如果能在host->device传输过程中进行转置就更好了，同时保持原始数据不变. 解决方案 CUDA SDK 包括一个矩阵转置，你可以看到这里的例子关于如何实现的代码，从简单的实 ..

发布时间：2021-12-30 21:21:38 c parallel-processing cuda gpu cublas 其他开发

在 Visual Studio 2017 中使用 CUDA

我正在尝试安装 CUDA，但收到一条消息，提示“找不到支持的 Visual Studio 版本".我认为这是因为我使用的是 Visual Studio 2017(社区)，而 CUDA 目前最多只支持 Visual Studio 2015.不幸的是，Microsoft 不允许我在不支付订阅费的情况下下载旧版本的 Visual Studio. 有没有办法解决与 VS 2017 的兼容性问题，或者 ..

发布时间：2021-12-30 21:02:17 visual-studio parallel-processing cuda gpu 其他开发

我可以在英特尔的集成图形处理器上运行 CUDA 吗?

我有一台非常简单的带有 i3 处理器的东芝笔记本电脑.另外，我没有任何昂贵的显卡.在显示设置中，我看到 Intel(HD) Graphics 作为显示适配器.我打算学习一些cuda编程.但是，我不确定是否可以在我的笔记本电脑上做到这一点，因为它没有任何支持 nvidia 的 cuda 的 GPU. 事实上，我怀疑，如果我什至有一个 GPU o_o 因此，如果有人能告诉我是否可以使用当前 ..

发布时间：2021-12-30 18:39:57 graphics cuda gpu 其他开发

如何直接访问显卡的输出?

显卡通常是否将其输出写入内存中我可以访问的某个位置?我必须使用驱动程序吗?如果可以，我可以使用 OpenGL 吗? 我想知道是否可以在 Linux 上“捕获"VM 的输出，该 VM 可以直接访问 GPU，并且正在运行 Windows.理想情况下，我可以直接从内存访问输出，而无需接触 GPU，因为此代码将能够在 Linux 主机上运行. 另一种选择是编写一个 Windows 驱动程序，该 ..

发布时间：2021-12-30 18:32:15 c graphics gpu 其他开发

如何让 TensorFlow 100% 使用 GPU?

我有一台配备 RTX 2060 GPU 的笔记本电脑，我正在使用 Keras 和 TF 2 在其上训练 LSTM.我还通过 nvidia-smi 监视 gpu 的使用，我注意到 jupyter notebook 和 TF 的使用率最高为 35%，通常 gpu 的使用率在 10-25% 之间. 目前条件下，训练这个模型需要7个多小时，我想知道是我做错了什么还是Keras和TF的限制? 我 ..

发布时间：2021-12-27 17:28:34 tensorflow keras deep-learning gpu nvidia 其他开发

我可以使用英特尔高清显卡在笔记本电脑中实现深度学习模型吗

我目前正在为我的硕士学位做一个深度学习项目.我想安装 keras 库，所以当我开始安装 Theano 和 tensorflow 时，我看到我必须安装 CUDA.但是我的笔记本电脑带有英特尔高清显卡.所以我的问题是，如果我无论如何都安装它们，它会起作用.谢谢解决方案你可以在没有 cuda 的情况下安装和使用 keras，但你不能用 intel 高清显卡加速 gpu. 如果你使用 T ..

发布时间：2021-12-27 17:25:51 gpu deep-learning keras 其他开发

cublas 的 tensorflow 运行错误

当我在集群上成功安装 tensorflow 后，我立即运行 mnist demo 来检查它是否运行良好，但在这里我想到了一个问题.我不知道这是怎么回事，但看起来错误来自 CUDA python3 -m tensorflow.models.image.mnist.convolutional我 tensorflow/stream_executor/dso_loader.cc:108] 在本地成功打开 ..

发布时间：2021-12-27 17:02:01 gpu tensorflow deep-learning cublas 其他开发

FileNotFoundError:没有这样的文件:->由于 Google Drive 超时而发生错误?

我用 Sequence 类创建了一个 DataGenerator. 导入 tensorflow.keras 作为 keras从 skimage.io 导入 imread从 skimage.transform 导入调整大小将 numpy 导入为 np导入数学从 tensorflow.keras.utils 导入序列这里，`x_set` 是图像的路径列表，`y_set` 是相关的类.类数据生成器(序 ..

发布时间：2021-12-26 13:06:44 python error-handling gpu google-colaboratory file-not-found Python

如何检查 pytorch 是否正在使用 GPU?

我想知道 pytorch 是否在使用我的 GPU.如果在此过程中 GPU 有任何活动，可以使用 nvidia-smi 进行检测，但我想要用 python 脚本编写的内容. 有没有办法做到这一点? 解决方案这应该有效: 导入火炬torch.cuda.is_available()>>>真的torch.cuda.current_device()>>>0torch.cuda.device ..

发布时间：2021-12-24 16:54:06 python memory-management gpu nvidia pytorch Python

获取 CPU/GPU/内存信息

我需要获取有关 CPU/GPU/内存的任何信息.核心数、内存值、内存和 CPU 使用率...我找到了一种为 IE 执行此操作的方法:如何使用 JavaScript 查找硬件信息其他浏览器的解决方案我不知道.知道怎么做吗?也许 webgl 可以访问有关您计算机的信息?或闪光?或任何其他技术? 非常感谢解决方案此代码将打印 GPU 信息，并列出您可以使用此浏览器的性能对象获得 ..

发布时间：2021-12-21 10:22:55 javascript memory webgl cpu gpu 前端开发

创建 gpu 谷歌实例时出错

我曾尝试在 Google Cloud Platform 中创建 GPU 实例，但每次尝试创建实例时，它都会显示“您已达到 0 GPU NVIDIA K80 的限制". 我正在尝试在 us-east1-c/us-west1-b 中创建一个具有 4 个 vCPU、8-15 GB 内存、1 个 GPU 的实例. 请帮助解决以下问题. 解决方案按照指定的顺序执行所有步骤，否则在配额页 ..

发布时间：2021-12-20 19:16:06 cloud virtual-machine google-cloud-platform gpu gcp 其他开发

如何在不复制到 CPU 内存的情况下将 ffmpeg 纹理转换为 Open GL 纹理

这个 ffmpeg 示例演示了如何进行硬件解码:https://github.com/FFmpeg/FFmpeg/blob/release/4.2/doc/examples/hw_decode.c 在第 109 行，它执行以下操作: /* 从 GPU 检索数据到 CPU */如果((ret = av_hwframe_transfer_data(sw_frame，frame，0)) 我想避 ..

发布时间：2021-12-19 18:41:20 opengl video ffmpeg gpu 其他开发

gpu相关内容