程序运行中显卡驱动掉线,重启能恢复但问题仍频出,如何解决

环境

Server: Ubuntu 22.04.2 LTS (GNU/Linux 5.15.0-76-generic x86_64)
GPU: nvidia 4090

解决思路

明确问题,排查原因

观察法
  • nvidia-smi -l记录保存到文件,回溯问题原因,温度尚可,功率也正常。排除可能的散热问题。

  • s-tui可以追踪功率变化,帮助排查电源问题(可能性通常较小,不建议优先考虑)。

实验法(可能的解决方案)
  • 增加ups设备保障供电稳定(该情况其实很少发生,但是因为实验室发生过类似问题故考虑其中)
  • 卸载重装显卡驱动:按照教程卸载干净后重装
  • 内核更新禁用:参考文章

以上方法均无法解决该问题,但过程中有发现:按照标准流程安装驱动后,运行nvidia-smi 依然会出现问题:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
但是通过命令ll /usr/src/ 能找到已安装的驱动文件,也可通过dpkg -l | grep nvidia 确认已安装相应版本驱动。
因此在驱动安装成功的基础上,排除内核不匹配的可能原因之后,很可能是通信本身的问题(尤其是nvcc也可正常搜到,万事俱备只欠东风),通过继续检索,一篇文章的评论里提醒到我:关闭 secure boot !
尝试进入biosdisable secure boot(一般在settings 的security里面)之后,在没有重装驱动的情况下,nvidia-smi可以正常运行,故此推测是这个设定影响了主板和显卡的通信(仅瞎猜,欢迎将可靠的解释分享在评论区)。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部