Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

PowerEdge R7515 mit NVIDIA T4-GPU erkannte einen kritischen Xid-Fehler und GPU stoppte die Verarbeitung.

Summary: Dieser Artikel beschreibt die Lösung für den PowerEdge R7515, bei dem die NVIDIA T4 GPU einen kritischen Xid-Fehler erkannt hat und die GPU die Verarbeitung gestoppt hat.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

PowerEdge R7515 mit NVIDIA T4-GPU, auf der ein Anwendungsprogramm ausgeführt wird Es wurde ein kritischer Xid-Fehler festgestellt und die GPU hat die Verarbeitung gestoppt.
PowerEdge R7515 mit NVIDIA T4-GPU, auf der ein Anwendungsprogramm ausgeführt wird Es wurde ein kritischer Xid-Fehler festgestellt und die GPU hat die Verarbeitung gestoppt.

1. Aktualisieren Sie die GPU-CUDA und den Treiber auf die neueste Version, CUDA Toolkit 12. 12.2.2 NVIDIA Data Center GPU-Treiber: 535.129.03 (Linux), GPU-Persistenzmodus aktiviert, dann wird der APP-Test des Nutzers ausgeführt und immer noch ein Fehler angezeigt: Kritischer Xid-Fehler erkannt.
2. Nvidia-bug-report Protokollprüfung hat viele NVRM:Xid:8-Fehler, aktuelle GPU-Temperatur: 42 C.
Driver Version: 535.129.03
CUDA Version: 12.2
Temperature
GPU Current Temp: 42 C
GPU T.Limit Temp: N/A
GPU Shutdown Temp: 96 C
GPU Slowdown Temp: 93 C
GPU Max Operating Temp: 85 C

Nov 27 10:18:12 dell-PowerEdge-R7515 kernel: [160879.547208] NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002
...
/var/log/dmesg:
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: nvidia-nvlink: NVLInk Core is being initialized, major device number 236
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: NVRM: Loading NVIDIA UNIX x86_64 Kernel Module 535.129.03 Thu Oct 19 18:56:32 UTC 2023
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms 535.129.03 Thu Oct 19 18:42:12 UTC 2023
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: [drm] [nvidia-drm] [GPU ID 0x00008100] Loading driver
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:81:00.0 on minor 1
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: GPU at PCI:0000:81:00: GPU-61e384ab-7c8f-7ebf-efba-da6a7d862a33
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: GPU Board Serial Number: 1320223053140
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002
...
Nov 27 10:18:12 dell-PowerEdge-R7515 kernel: NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002


3. Starten Sie von SLI 3.0 und führen Sie NVIDIA Tesla GPU 629 aus. Vor-Ort-Diagnose wurde BESTANDEN.
 
 

Cause

N. z.

Resolution

1. Arbeiten mit Xid-Fehlern XID: 8 für vor dem Test erwarten Sie den Treiberfehler, Busfehler, Temperaturproblem, Es scheint der Benutzer-App-Fehler zu sein.
Xid Fehlerauflistungen
2. Lassen Sie den Benutzer das Anwendungsprogramm überprüfen, dann deaktiviert der Benutzer xorg und das Problem war verschwunden.
 

Affected Products

PowerEdge R7515
Article Properties
Article Number: 000220148
Article Type: Solution
Last Modified: 26 Feb 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.