grycap.nvidia_driver
ansible-role-nvidia驱动程序
一个用于从NVIDIA CUDA仓库安装NVIDIA驱动程序的Ansible角色。
要求
在安装NVIDIA驱动程序的过程中,该角色将重启运行它的节点。因此,我们强烈建议您从不同于正在安装驱动程序的GPU节点的节点上运行ansible-playbook
。
如果您尝试在安装驱动程序的同一节点上运行Ansible,该角色将:
- 拒绝继续,并显示错误信息,例如“使用本地连接运行重启将重启控制节点”(如果使用
local
连接) - 重启您正在运行的节点,从而中断剧本执行!(如果通过
ssh
连接到本地主机)
安装
可以使用Ansible Galaxy安装此角色:
$ ansible-galaxy install grycap.nvidia_driver
角色变量
变量 | 默认值 | 描述 |
---|---|---|
nvidia_driver_package_version |
"" |
要安装的包版本。请注意,这应与要安装的deb或RPM包的实际版本匹配。 |
nvidia_driver_persistence_mode_on |
yes |
是否启用持久模式(布尔值) |
nvidia_driver_skip_reboot |
no |
是否在安装过程中跳过重启节点 |
nvidia_driver_module_file |
"/etc/modprobe.d/nvidia.conf" |
用于NVIDIA驱动程序参数的文件名 |
nvidia_driver_module_params |
"" |
传递给NVIDIA驱动程序的参数 |
Red Hat特定变量
变量 | 默认值 | 描述 |
---|---|---|
epel_package |
"https://dl.fedoraproject.org/pub/epel/epel-release-latest-{{ ansible_distribution_major_version }}.noarch.rpm" |
用于启用EPEL的包 |
nvidia_driver_rhel_cuda_repo_baseurl |
"https://developer.download.nvidia.com/compute/cuda/repos/{{ _rhel_repo_dir }}/" |
用于CUDA仓库的基本URL |
nvidia_driver_rhel_cuda_repo_gpgkey |
"https://developer.download.nvidia.com/compute/cuda/repos/{{ _rhel_repo_dir }}/7fa2af80.pub" |
CUDA仓库的GPG密钥 |
Ubuntu特定变量
对于Ubuntu安装,您可以选择从Canonical仓库和NVIDIA CUDA仓库安装。
默认情况下,将使用Canonical仓库,安装的驱动程序将是无头服务器驱动程序。
变量 | 默认值 | 描述 |
---|---|---|
nvidia_driver_ubuntu_install_from_cuda_repo |
no |
标志是否使用CUDA仓库 |
nvidia_driver_ubuntu_branch |
450 |
安装时使用的驱动程序分支 |
nvidia_driver_ubuntu_packages |
["nvidia-headless-450-server", "nvidia-headless-450-utils"] |
从Canonical仓库安装的包名称 |
nvidia_driver_ubuntu_cuda_repo_baseurl |
"http://developer.download.nvidia.com/compute/cuda/repos/{{ _ubuntu_repo_dir }}" |
用于CUDA仓库的基本URL |
nvidia_driver_ubuntu_cuda_repo_gpgkey_url |
"https://developer.download.nvidia.com/compute/cuda/repos/{{ _ubuntu_repo_dir }}/7fa2af80.pub" |
CUDA仓库的GPG密钥 |
nvidia_driver_ubuntu_cuda_repo_gpgkey_id |
"7fa2af80" |
CUDA仓库的GPG密钥ID |
nvidia_driver_ubuntu_cuda_package |
"cuda-drivers" |
从CUDA仓库安装的包名称 |
示例剧本
- hosts: gpu_nodes
roles:
- nvidia.nvidia_driver
支持的发行版
目前,该角色支持以下Linux发行版:
- NVIDIA DGX OS 4
- NVIDIA DGX OS 5
- Ubuntu 18.04 LTS
- Ubuntu 20.04 LTS
- CentOS 7
- CentOS 8
- Red Hat Enterprise Linux 7