伺服器維護 - Docker 容器管理
問題點
有一天伺服器重新開機完,啟動Docker給使用者使用時,
使用者連線進入docker container 環境中出現奇怪的現象,
問題狀況
(1) nvidia-smi無法顯示
1 | Failed to initizlize NVML: Unknown Error |
(2) torch.cuda.is_available() 回傳False
(3) Let’s use 0 GPUs.
設備
Dgx Station
OS: Ubuntu 18.03
CPU: Intel Xeon E5-2698 v4 2.2GHz (20 core)
GPUs: 4X Tesla V100 32GB
System Memory: DDR4 256GB
Network: Double 10GBase-T(RJ-45)
Monitor: 3X DisplayPort, 4k solutions
解決方法
- 開啟管理者權限
1
sudo su
- 修改參數
1
2
3
4
5
6
7cd /etc/default
gedit grub
修改 GRUB_CMDLINE_LINUX_DEFAULT="... systemd.unified_cgroup_hierarchy=false"
cd /etc/nvidia-container-runtime
gedit config.toml
修改 no-cgroups = false
引導配置文件
1
grub-mkconfig -o /boot/grub/grub.cfg
重新啟動電腦
1
reboot
確認參數是否添加
1
cat /proc/cmdline
參考
【踩坑】docker 中使用 Nvidia GPU
https://blog.csdn.net/mightbxg/article/details/119733088