伺服器維護 - Docker 容器管理

問題點

有一天伺服器重新開機完,啟動Docker給使用者使用時, 使用者連線進入docker container 環境中出現奇怪的現象,

問題狀況

  1. nvidia-smi無法顯示
    1
    Failed to initizlize NVML: Unknown Error
  2. torch.cuda.is_available() 回傳False
  3. Let’s use 0 GPUs.

設備

Dgx Station OS: Ubuntu 18.03 CPU: Intel Xeon E5-2698 v4 2.2GHz (20 core) GPUs: 4X Tesla V100 32GB System Memory: DDR4 256GB Network: Double 10GBase-T(RJ-45) Monitor: 3X DisplayPort, 4k solutions

解決方法

  1. 開啟管理者權限
    1
    sudo su
  2. 修改參數
    1
    2
    3
    4
    5
    6
    7
    cd /etc/default
    gedit grub
    修改 GRUB_CMDLINE_LINUX_DEFAULT="... systemd.unified_cgroup_hierarchy=false"

    cd /etc/nvidia-container-runtime
    gedit config.toml
    修改 no-cgroups = false
    config
grub
  1. 引導配置文件

    1
    grub-mkconfig -o /boot/grub/grub.cfg

  2. 重新啟動電腦

    1
    reboot

  3. 確認參數是否添加

    1
    cat /proc/cmdline

參考

【踩坑】docker 中使用 Nvidia GPU https://blog.csdn.net/mightbxg/article/details/119733088