tesla相关内容

即使在 cudaSetDevice 之后,第一个 cudaMalloc(K40 与 K20)的速度也很慢

我知道 CUDA 会在第一次 API 调用期间进行初始化,但花费的时间太多了.即使在单独的 cudaSetDevice 之后 测试程序: 使用 CUDA 7.0 (compute_35) + Visual Studio 2012 + NSight 4.5 构建的相同程序,然后在 2 台单独的机器上运行(无需重建) 在第一个 cudaMalloc 之前,我称之为“cudaSetDe ..
发布时间:2022-01-10 15:34:27 C/C++开发

使用为Maxwell GPU上的计算能力3.7编译的CUDA?

我的开发工作站当前具有NVIDIA Quadro K2200和K620.两者都具有CUDA计算功能5.0.但是,最终的生产系统使用的是Tesla K80,后者的CUDA计算能力为3.7. 是否可以在我的Quadro GPU上安装和开发用于计算能力3.7的CUDA程序,然后将它们移至K80,而无需进行重大更改? 解决方案 是的,有可能.请确保不要在代码中使用任何计算功能 5.0或以上的 ..
发布时间:2021-04-27 20:07:19 其他开发

并发内核启动示例-CUDA

我正在尝试为非常复杂的CUDA内核实现并发内核启动,因此我认为我将从一个简单的示例开始.它只是启动一个减少总和的内核.很简单.在这里: #include #include #include #include extern __shared__ char dsmem[]; __device__ double *sc ..
发布时间:2020-05-24 21:50:33 其他开发

费米建筑可能的解决方案对我的比较研究?

我正在开展一项比较研究,其中我必须对算法的串行和并行版本进行比较(NSGA-II算法要精确下载链接)。 NSGA-II是一种启发式优化方法,因此取决于生成的初始随机种群。如果使用CPU和GPU生成的初始种群不同,那么我不能进行公正的加速研究。 我拥有NVIDIA-TESLA-C1060卡,其计算能力为1.3。根据此版本和这个NVIDIA文档,我们不能指望sm_13设备总是产生IEEE-754 ..
发布时间:2017-03-04 16:29:33 其它硬件开发