Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE-järjestelmät: Pakettien asentaminen DCGMI-vianmääritystä varten. RHEL Kivinen

Summary: DCGM:n (NVIDIA Data Center GPU Manager) asentaminen Linuxiin DCGMI-lokien keräämiseksi vianmääritystä varten. RHEl/Kivinen

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Edellytykset
DCGM:n suorittamiseksi kohdejärjestelmässä on oltava seuraavat NVIDIA-komponentit, jotka on lueteltu riippuvuusjärjestyksessä: Tuetut NVIDIA Datacenter -ajurit
-
HGX (Hyperscale Graphics Extension) -järjestelmissä Fabric Manager ja NVSwitch Configuration and Query (NSCQ) -paketit
- DCGM Runtime ja SDK

Red Hat- tai Rocky-julkaisut:

HUOMAUTUS: Näyttökuvat ovat vain viitteellisiä, ja havaituissa tuloksissa voi olla eroja.


Asenna säilön metatiedot ja CUDA GPG -avain:
[Korvaa x86_64 arm64:n sanalla "sbsa" tai tarvittaessa komennolla "ppc64le" sanalle ppc64le. Poista lainausmerkit]
Määritä distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuaalinen tulostus päätteessä 2 komennosta arkiston metatietojen ja CUDA-GPG-avaimen asentamiseen

Päivitä säilön metatiedot.

sudo dnf clean expire-cache

Pääte käynnissä ja komennon

Asenna DCGM.

sudo dnf install -y datacenter-gpu-manager

Pääte, joka suorittaa komennon

HGX-järjestelmissä (A100/A800 ja H100/H800) sinun on asennettava NVIDIA Switch Configuration, jos haluat tehdä kyselyn NVSwitcheille. Tee DCGM-kysely NSCQ-kirjastosta luetellaksesi NVSwitchit ja tarjotaksesi telemetriatietoja kytkimille. NSCQ:n on vastattava järjestelmään asennettua ajuriversiohaaraa (XXX). Korvaa XXX tarvittavalla ohjainhaaralla alla olevissa komennoissa.

sudo dnf module install nvidia-driver:XXX/fm

 

Tee ajuriversion käyttöjärjestelmäkysely:

nvidia-smi



Tässä esimerkissä käytetään seuraavaa komentoa, koska ajuriversiomme on 550:

sudo dnf module install nvidia-driver:550/fm

Käynnissä olevan

Ota DCGM systemd -palvelu käyttöön (uudelleenkäynnistyksen yhteydessä) ja käynnistä nyt:

sudo systemctl --now enable nvidia-dcgm

Visuaalinen esitys komennosta

Tarkista asennus tekemällä kysely järjestelmälle dcgmi:n avulla. Sinun pitäisi nähdä luettelo kaikista tuetuista GPU: ista (ja kaikista NVSwitcheistä), jotka löytyvät järjestelmästä: (kytkin on pieni L-kirjain)
DCGMI-löytö -L 

dcgmi discovery -l 

[Alla olevassa esimerkissä ei ole NvSwitchejä, mutta kenttään täytetään tiedot, jos niitä on tai jos niitä havaitaan.]
Komennon

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.