tesla - IT屋-程序员软件开发技术分享社区

即使在 cudaSetDevice 之后，第一个 cudaMalloc(K40 与 K20)的速度也很慢

我知道 CUDA 会在第一次 API 调用期间进行初始化，但花费的时间太多了.即使在单独的 cudaSetDevice 之后测试程序: 使用 CUDA 7.0 (compute_35) + Visual Studio 2012 + NSight 4.5 构建的相同程序，然后在 2 台单独的机器上运行(无需重建) 在第一个 cudaMalloc 之前，我称之为“cudaSetDe ..

发布时间：2022-01-10 15:34:27 c++ cuda nsight tesla C/C++开发

使用为Maxwell GPU上的计算能力3.7编译的CUDA?

我的开发工作站当前具有NVIDIA Quadro K2200和K620.两者都具有CUDA计算功能5.0.但是，最终的生产系统使用的是Tesla K80，后者的CUDA计算能力为3.7. 是否可以在我的Quadro GPU上安装和开发用于计算能力3.7的CUDA程序，然后将它们移至K80，而无需进行重大更改? 解决方案是的，有可能.请确保不要在代码中使用任何计算功能 5.0或以上的 ..

发布时间：2021-04-27 20:07:19 cuda nvidia tesla 其他开发

并发内核启动示例-CUDA

我正在尝试为非常复杂的CUDA内核实现并发内核启动，因此我认为我将从一个简单的示例开始.它只是启动一个减少总和的内核.很简单.在这里: #include #include #include #include extern __shared__ char dsmem[]; __device__ double *sc ..

发布时间：2020-05-24 21:50:33 c cuda parallel-processing gpgpu tesla 其他开发

费米建筑可能的解决方案对我的比较研究？

我正在开展一项比较研究，其中我必须对算法的串行和并行版本进行比较（NSGA-II算法要精确下载链接）。 NSGA-II是一种启发式优化方法，因此取决于生成的初始随机种群。如果使用CPU和GPU生成的初始种群不同，那么我不能进行公正的加速研究。我拥有NVIDIA-TESLA-C1060卡，其计算能力为1.3。根据此版本和这个NVIDIA文档，我们不能指望sm_13设备总是产生IEEE-754 ..

发布时间：2017-03-04 16:29:33 cuda floating-point nvidia ieee-754 tesla 其它硬件开发

慢的第一个cudaMalloc（K40 vs K20），甚至在cudaSetDevice之后

我知道CUDA将在第一次API调用期间进行初始化，但是花费的时间太多了。即使在单独的cudaSetDevice 测试程序之后：：CUDA 7.0（compute_35）+ Visual Studio 2012 + NSight 4.5，然后在两个独立的机器上运行（不重建）在第一个cudaMalloc之前， “cudaSetDevice” 我的电脑：Win7 + Tesl ..

发布时间：2017-03-04 12:31:02 c++ cuda nsight tesla C/C++开发

tesla相关内容