Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.

Dell PowerEdge 14G: ESXi gibt „Failed to initialize NVML: Unknown Error“ bei Nvidia-GPU zurück

Zusammenfassung: Um dieses Problem zu beheben, stellen Sie die Einstellung "Memory Mapped I/O Base" auf 512 GB.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Beschreibung

Wenn Sie versuchen, eine NVIDIA GPU (z. B. M10) auf einem unterstützten 14G-Server (R740 und R740XD) zu installieren, kann nach der Installation der Treiber-VIB die folgende Fehlermeldung angezeigt werden, wenn Sie versuchen, den Befehl nvidia-smi auszuführen:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


In der Datei "nvidia-bug-report.log" werden unter /var/log/vmkernel.log ähnliche Ereignisse wie die folgenden angezeigt:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Lösung

Die Hardware funktioniert einwandfrei. Um dieses Problem zu beheben, setzen Sie die Einstellung Memory Mapped I/O Base auf 512 GB (Standard ist 56 TB) oder 12 TB (wenn der Server über >512 GB RAM verfügt):

SLN308065_en_US__2PSE2940biossetting


Dieses Problem ist im R740-Hardware-Benutzerhandbuch dokumentiert:

Memory Mapped I/O above 4 GB – Aktiviert oder deaktiviert die Unterstützung für PCIe-Geräte, die große Speichermengen benötigen. Aktivieren Sie diese Option nur für 64-Bit-Betriebssysteme. Diese Option ist standardmäßig auf Enabled (Aktiviert) gesetzt.

Memory Mapped I/O above Base – Wenn die Option auf 12 TB gesetzt ist, ordnet das System MMIO base 12 TB zu. Aktivieren Sie diese Option für ein Betriebssystem, das 44-bit-PCIe-Adressierung erfordert.
Wenn die Option auf 512 GB eingestellt ist, wird die MMIO-Basis auf 512 GB festgelegt und die maximale Unterstützung für Speicher auf weniger als 512 GB reduziert. Aktivieren Sie diese Option nur für das 4-GPU-DGMA-Problem. Diese Option ist standardmäßig auf 56 TB gesetzt.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (Seite 52)

 

SLN308065_en_US__3icon Beachten Sie, dass hierdurch der Systemspeicher auf 512 GB (bei Festlegung auf 512 GB) begrenzt wird.

 

Nachdem Sie diese Einstellung geändert und das System neu gestartet haben, sollte nvidia-smi etwas Ähnliches ausgeben wie:

SLN308065_en_US__4PSE2940noerror

Ursache

-

Lösung

-

Betroffene Produkte

PowerEdge R740, PowerEdge R740XD, PowerEdge T640
Artikeleigenschaften
Artikelnummer: 000144038
Artikeltyp: Solution
Zuletzt geändert: 07 Okt. 2021
Version:  4
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.