CUDA错误:Colab上触发了设备端断言 [英] CUDA error: device-side assert triggered on Colab

查看:38
本文介绍了CUDA错误:Colab上触发了设备端断言的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试在启用GPU的Google Colab上初始化张量。

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

t = torch.tensor([1,2], device=device)

但是我收到这个奇怪的错误。
RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1

即使将该环境变量设置为1,似乎也不会显示任何进一步的详细信息。
有人遇到过这个问题吗?

推荐答案

虽然我尝试了您的代码,但它没有给我一个错误,我可以说,通常调试CUDA运行时错误的最佳实践:像您这样的设备端断言是将Collab转换为cpu并重新创建错误。它将为您提供更有用的回溯错误。

大多数情况下,CUDA运行时错误可能是导致某些索引不匹配的原因,因此,就像您试图在具有15个标签的数据集上训练具有10个输出节点的网络一样。这个CUDA错误的问题是,一旦你得到这个错误,你对torch.tensor所做的每一次操作都会收到它。这将强制您重新启动笔记本。

我建议您重新启动笔记本,通过转到cpu获得更准确的回溯,并检查代码的睡觉,特别是如果您在某处针对一组目标训练模型。

这篇关于CUDA错误:Colab上触发了设备端断言的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆