grycap.nvidia_driver

ansible-role-nvidia-driver

Eine Ansible-Rolle zur Installation des NVIDIA-Treibers aus den NVIDIA CUDA-Repositories.

Voraussetzungen

Im Verlauf der Installation des NVIDIA-Treibers wird dieses Rolle die Knoten, auf denen sie ausgeführt wird, neu starten. Deshalb empfehlen wir dringend, ansible-playbook von einem anderen Knoten als den GPU-Knoten auszuführen, auf denen der Treiber installiert wird.

Wenn Sie versuchen, Ansible auf demselben Knoten auszuführen, auf dem Sie den Treiber installieren, wird dieses Rolle entweder:

  • Die Ausführung mit einer Fehlermeldung wie Running reboot with local connection would reboot the control node ablehnen (wenn mit der local Verbindung ausgeführt)
  • Den Knoten neu starten, auf dem Sie sich gerade befinden, und die Ausführung des Playbooks unterbrechen! (wenn eine ssh Verbindung zu localhost verwendet wird)

Installation

Diese Rolle kann mit Ansible Galaxy installiert werden:

$ ansible-galaxy install grycap.nvidia_driver

Rollvariablen

Variable Standardwert Beschreibung
nvidia_driver_package_version "" Zu installierende Paketversion. Beachten Sie, dass dies mit der tatsächlichen Version des zu installierenden Deb- oder RPM-Pakets übereinstimmen sollte.
nvidia_driver_persistence_mode_on ja Ob der Persistenzmodus aktiviert werden soll (boolean)
nvidia_driver_skip_reboot nein Ob der Neustart des Knotens während der Installation übersprungen werden soll
nvidia_driver_module_file "/etc/modprobe.d/nvidia.conf" Dateiname für NVIDIA-Treiberparameter
nvidia_driver_module_params "" Parameter, die an den NVIDIA-Treiber übergeben werden

Red Hat-spezifische Variablen

Variable Standardwert Beschreibung
epel_package "https://dl.fedoraproject.org/pub/epel/epel-release-latest-{{ ansible_distribution_major_version }}.noarch.rpm" Paket zur Aktivierung von EPEL
nvidia_driver_rhel_cuda_repo_baseurl "https://developer.download.nvidia.com/compute/cuda/repos/{{ _rhel_repo_dir }}/" Basis-URL für das CUDA-Repository
nvidia_driver_rhel_cuda_repo_gpgkey "https://developer.download.nvidia.com/compute/cuda/repos/{{ _rhel_repo_dir }}/7fa2af80.pub" GPG-Schlüssel für das CUDA-Repository

Ubuntu-spezifische Variablen

Für Ubuntu-Installationen haben Sie die Wahl, entweder aus den Canonical-Repositories oder den NVIDIA CUDA-Repositories zu installieren.

Standardmäßig werden die Canonical-Repositories verwendet, und der installierte Treiber ist der Headless-Server-Treiber.

Variable Standardwert Beschreibung
nvidia_driver_ubuntu_install_from_cuda_repo nein Flag, ob das CUDA-Repository verwendet werden soll
nvidia_driver_ubuntu_branch 450 Treiberzweig für die Installation
nvidia_driver_ubuntu_packages ["nvidia-headless-450-server", "nvidia-headless-450-utils"] Paketnamen, die aus dem Canonical-Repo installiert werden sollen
nvidia_driver_ubuntu_cuda_repo_baseurl "http://developer.download.nvidia.com/compute/cuda/repos/{{ _ubuntu_repo_dir }}" Basis-URL für das CUDA-Repository
nvidia_driver_ubuntu_cuda_repo_gpgkey_url "https://developer.download.nvidia.com/compute/cuda/repos/{{ _ubuntu_repo_dir }}/7fa2af80.pub" GPG-Schlüssel für das CUDA-Repository
nvidia_driver_ubuntu_cuda_repo_gpgkey_id "7fa2af80" GPG-Schlüssel-ID für das CUDA-Repository
nvidia_driver_ubuntu_cuda_package "cuda-drivers" Paketname, das aus dem CUDA-Repository installiert wird

Beispiel-Playbook

- hosts: gpu_nodes
  roles:
  - nvidia.nvidia_driver

Unterstützte Distributionen

Aktuell unterstützt diese Rolle die folgenden Linux-Distributionen:

  • NVIDIA DGX OS 4
  • NVIDIA DGX OS 5
  • Ubuntu 18.04 LTS
  • Ubuntu 20.04 LTS
  • CentOS 7
  • CentOS 8
  • Red Hat Enterprise Linux 7
Über das Projekt

Install the NVIDIA driver

Installieren
ansible-galaxy install grycap.nvidia_driver
GitHub Repository
Lizenz
bsd-3-clause
Downloads
2.1k
Besitzer
Grid y Computación de Altas Prestaciones