伺服器維護 - Docker 容器管理

問題點

有一天伺服器重新開機完,啟動Docker給使用者使用時,
使用者連線進入docker container 環境中出現奇怪的現象,

問題狀況

(1) nvidia-smi無法顯示

1
Failed to initizlize NVML: Unknown Error

(2) torch.cuda.is_available() 回傳False
(3) Let’s use 0 GPUs.

設備

Dgx Station
OS: Ubuntu 18.03
CPU: Intel Xeon E5-2698 v4 2.2GHz (20 core)
GPUs: 4X Tesla V100 32GB
System Memory: DDR4 256GB
Network: Double 10GBase-T(RJ-45)
Monitor: 3X DisplayPort, 4k solutions

解決方法

  1. 開啟管理者權限
    1
    sudo su
  2. 修改參數
    1
    2
    3
    4
    5
    6
    7
    cd /etc/default
    gedit grub
    修改 GRUB_CMDLINE_LINUX_DEFAULT="... systemd.unified_cgroup_hierarchy=false"

    cd /etc/nvidia-container-runtime
    gedit config.toml
    修改 no-cgroups = false
    config

grub

  1. 引導配置文件

    1
    grub-mkconfig -o /boot/grub/grub.cfg
  2. 重新啟動電腦

    1
    reboot
  3. 確認參數是否添加

    1
    cat /proc/cmdline

參考

【踩坑】docker 中使用 Nvidia GPU
https://blog.csdn.net/mightbxg/article/details/119733088