Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.

Dell PowerEdge 14G: ESXi 傳回「無法初始化 NVML:未知錯誤」(含 NVidia GPU)

Zusammenfassung: 若要解決此問題,請將記憶體對應 I/O 基礎設定為 512 GB

Dieser Artikel gilt für   Dieser Artikel gilt nicht für 

Symptome

描述名稱

嘗試將 NVidia GPU (例如 M10) 安裝至支援的 14G 伺服器 (R740 和 R740XD) 時,在安裝驅動程式 vib 後,嘗試執行以下 nvidia-smi 命令時,可能會出現下列錯誤:

[root@localhost:~] nvidia-smi
無法初始化 NVML:未知錯誤


SLN308065_en_US__1PSE2940error


在 nvidia-bug-report.log 中,在 /var/log/vmkernel.log 區段中會看到類似以下的事件:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: 這是 64 位元的 BAR,由系統對應在 16 TB 以上
NVRM:BIOS 或 VMware ESXi 核心。此 PCI I/O 為區域指派
NVRM:核心不支援至您的 NVIDIA 裝置。
NVRM:BAR1 為 256M @ 0x382fe00$



 


解決方案

硬體運作正常。若要解決此問題,請將記憶體對應 I/O 基礎設定為 512 GB (預設為 56 TB) 或 12TB (如果伺服器有 >512GB RAM):

SLN308065_en_US__2PSE2940biossetting


此問題會記錄在 R740 硬體擁有者手冊中:

記憶體對應 I/O 高於 4 GB - 啟用或停用需要大量記憶體之 PCIe 裝置的支援。僅針對 64 位元作業系統啟用此選項。此設定預設為啟用。

記憶體對應 I/O 高於基礎 - 設為 12 TB 時,系統會將 MMIO 基礎對應至 12 TB。為需要 44 位元 PCIe 定址的作業系統啟用此選項。
若設為 512 GB,系統會將 MMIO 基礎對應至 512 GB,並將對記憶體的最大支援降低至低於 512 GB。僅針對 4 個 GPU DGMA 問題啟用此選項。此選項依預設設定為 56 TB。

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (第 52 頁)

 

SLN308065_en_US__3icon 請注意,這會將系統記憶體限制至 512GB (若設為 512 GB)。

 

變更此設定並重新啟動系統後,nvidia-smi 應會輸出類似以下內容:

SLN308065_en_US__4PSE2940noerror

Ursache

-

Lösung

-

Betroffene Produkte

PowerEdge R740, PowerEdge R740XD, PowerEdge T640