Article Number: 000215212
MCE(マシン チェック例外)エラーにより、ESXiサーバーが紫色の診断画面(PSOD)で停止することがあります。MCEエラーはハードウェアの問題によるものです。
MCE紫色の診断画面には、複数の情報が表示されます。これらの中で、MCi_STATUSレジスタは問題のデバッグに役立ちます。
登録の詳細:
ビットとその重要性:
63. | 62 | 61 | 60 | 59 | 58 | 57 | 53-56 | 38-52 | 32-37 | 16-31 | 0-15 |
VALID フラグ - 設定されている場合、情報は有効です。 | OVERFLOWフラグ - 設定されている場合、複数のMCEが互いに近くで発生したことを示す場合があります。 | UNCフラグ - 設定されている場合、CPUはエラーを修正できませんでした。 | ENフラグ | MISCVフラグ - 設定されている場合、その他のレジスタに詳細が含まれています。 | ADDRV - 設定されている場合は、エラーが発生した場所が ADDR レジスタに含まれます。 | PCCフラグ - 設定されている場合は、プロセッサーが破損している可能性があることを意味します。 | アーキテクチャ(ビット11が設定されている場合)、それ以外の場合は「その他の情報」。 | アーキテクチャ(ビット10が設定されている場合)、それ以外の場合は「その他の情報」。 | その他の情報 | CPUのモデル固有のエラー コード | マシン チェック エラー コード |
エラーをデバッグするには、MCi_STATUSレジスタの16ビットが少なくなっています。これらのビットは、単純エラーまたは複合エラーを示します。
オプション1: 自動ツールの使用
オプション2: 手動ステップの使用
0000 0000 0000 0000 -- No Error reported to this bank of error-reporting registers. 0000 0000 0000 0001 -- Unclassified - Error has not been classified. 0000 0000 0000 0010 -- Parity error in internal microcode ROM. 0000 0000 0000 0011 -- External error-BINIT# from another processor caused this processor MCE. Happens only if BINIT# observation enabled during power on. 0000 0000 0000 0100 -- Functional redundancy check master/slave error. 0000 0000 0000 0101 -- Internal parity error. 0000 0000 0000 0110 -- SMM handler tried to execute outside the ranges specified by SMRR. 0000 0100 0000 0000 -- Internal timer error. 0000 1110 0000 1011 -- I/O error. 0000 01xx xxxx xxxx -- Internal unclassified error. Atleast one X must be equal to 1.
000F 0000 0000 11LL - Generic Cache Hierarchy error. 000F 0000 0001 TTLL - {TT}TLB{LL}_ERR. TLB errors. 000F 0000 1MMM CCCC - {MMM}_Channel{CCCC}_ERR - Memory controller errors. 000F 0001 RRRR TTLL - {TT}CACHE{LL}_{RRRR}_ERR - Cache Hierarchy errors. 000F 1PPT RRRR IILL - BUS{LL}_{PP}_{RRRR}_{II}_T_ERR - Bus and Interconnect errors.
0 – Normal Filtering
1 – Corrected Filtering
フィルタリングとは、この構造内のこのエントリーに対する後続の修正の一部またはすべてを掲載しないことを意味します。
トランザクションのタイプを示します。
00 - Instruction
01 - Data
10 - Generic
エラーが発生したメモリ階層のレベルを示します
00 - Level 0 - L0
01 - Level 1 - L1
10 - Level 2 - L2
11 - Generic – LG (It is shown only when processor cannot determine the hierarchy level)
0000 - Generic Error - ERR 0001 - Generic Read - RD 0010 - Generic Write - WR 0011 - Data Read - DRD 0100 - Data Write - DWR 0101 - Instruction Fetch - IRD 0110 - Prefetch - PREFETCH 0111 - Eviction - EVICT 1000 - Snoop - SNOOP
00 - SRC - Local processor originated request 01 - RES - Local processor responded to request 10 - OBS - Local processor observed error as third party 11 - Generic
00 - M - Memory Access 10 - IO - I/O 01 - Reserved 11 - Other transaction
000 - GEN - Generic undefined request 001 - RD - Memory read error 010 - WR - Memory write error 011 - AC - Address/Command error 100 - MS - Memory Scrubbing error 101-111 - Reserved
0000-1110 - CHN - Channel number
1111 - Channel not specified
ここでは、MCE紫色の診断スクリーンショットを分析する方法の例を示します。
1111 1110 0010 0000 0000 0000 0100 0000 0000 0000 0000 0001 0001 0001 0110 0110
0001 0001 0110 0110
複合エラーと比較します。この場合、これはキャッシュ階層エラー(タイプ4)のように見えます。
F = 1 RRRR = 0110 – Prefetch TT = 01 – Transaction type - Data LL = 10 – Level 2 cache
結論:
PowerEdge, Virtualization Solutions
Software, Analytics
18 Sep 2023
1
How To