Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

NVIDIA T4 GPU搭載PowerEdge R7515で重大なXidエラーが検出され、GPUが処理を停止しました

Summary: この記事では、NVIDIA T4 GPUで重大なXidエラーが検出され、GPUが処理を停止したPowerEdge R7515のソリューションについて説明します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

アプリケーション プログラムを実行しているNVIDIA T4 GPU搭載のPowerEdge R7515 で重大なXidエラーが検出され、GPUが処理を停止しました。
アプリケーション プログラムを実行しているNVIDIA T4 GPU搭載のPowerEdge R7515で重大なXidエラーが検出され、GPUが処理を停止しました。

1. GPU CUDAとドライバーを最新バージョンのCUDA Toolkit 12にアップデートします。12.2.2 NVIDIAデータセンター用GPUドライバー: 535.129.03(Linux)でGPU永続モードを有効にし、ユーザーのAPPテストを実行しても、次のエラーが発生します。重大なXidエラーが検出されました。
2.Nvidia-bug-reportログのチェックに多数のNVRM:Xid:8エラーがあります、GPUの現在の温度: 42°Cです。
Driver Version: 535.129.03
CUDA Version: 12.2
Temperature
GPU Current Temp: 42 C
GPU T.Limit Temp: N/A
GPU Shutdown Temp: 96 C
GPU Slowdown Temp: 93 C
GPU Max Operating Temp: 85 C

Nov 27 10:18:12 dell-PowerEdge-R7515 kernel: [160879.547208] NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002
...
/var/log/dmesg:
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: nvidia-nvlink: NVLInk Core is being initialized, major device number 236
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: NVRM: Loading NVIDIA UNIX x86_64 Kernel Module 535.129.03 Thu Oct 19 18:56:32 UTC 2023
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms 535.129.03 Thu Oct 19 18:42:12 UTC 2023
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: [drm] [nvidia-drm] [GPU ID 0x00008100] Loading driver
Nov 25 13:36:52 dell-PowerEdge-R7515 kernel: [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:81:00.0 on minor 1
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: GPU at PCI:0000:81:00: GPU-61e384ab-7c8f-7ebf-efba-da6a7d862a33
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: GPU Board Serial Number: 1320223053140
Nov 25 13:37:04 dell-PowerEdge-R7515 kernel: NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002
...
Nov 27 10:18:12 dell-PowerEdge-R7515 kernel: NVRM: Xid (PCI:0000:81:00): 8, pid=1020, name=Xorg, Channel 00000002


3. SLI3.0から起動し、NVIDIA Tesla GPU 629フィールド診断を実行している場合は合格です。
 
 

Cause

なし

Resolution

1.XidエラーXIDの操作:テスト前に8でドライバーエラー、バスエラー、熱の問題が予想されますが、ユーザーアプリエラーのようです。
Xidエラー リスト
2.ユーザーにアプリケーションプログラムを確認させると、ユーザーはxorgを無効にし、問題は解決しました。
 

Affected Products

PowerEdge R7515
Article Properties
Article Number: 000220148
Article Type: Solution
Last Modified: 26 Feb 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.