Ein neues Gespräch starten

Ungelöst

R

1 Rookie

 • 

1 Nachricht

9

August 28th, 2024 10:43

T40: 2x NVME-Controller EMRICK05BS

Hallo!


hier läuft (bzw. lief) ein Dell T40-Server mit einer sda (Boot), sdb (Reserve), und md0 (data). md0 besteht aus 2 NVME-Controllern EMRICK05BS bestückt mit jeweils "NVMe Samsung SSD 970 EVO Plus 2TB". Die Controller waren eingebunden als nvme0 und nvme1. Die Volumes sind entsprechend nvme0n1 und nvme1n1. Die Partitionen darauf nvme0n1p1 und nvme1n1p1 bilden das Raid1. Alle Partitionen werden über uuid per fstab in das System V22.04.04 (mit allen Updates) eingebunden.

Soweit lief der Server jetzt etwa 2 Jahre. Er wurde (pfleglich) abgebaut und an einem anderen Standort wieder aufgebaut. Nach einem Neustart bootet der Server nicht durch. Er bleibt bei einer Menge SATA-Fehlern hängen und reagiert nicht mehr.

Nach vielen Tests stellt sich heraus, dass der 2. Controller (nvme1) nicht mehr in das System eingebunden wird. Im Bios sind die Slot 3 und 4 mit "Mass Storage" belegt, dort ist er also noch sichtbar. Ich habe die Controller untereinander getauscht, einzeln betrieben und auch die Speicherchips auf den Controllern getauscht. Mit jeweils einem Controller (nvme0) im Board wird das Laufwerk immer korrekt eingebunden. So gehe ich aktuell davon aus, dass die Controller und die Speicher nicht defekt sind.

Der Server wurde mit dem aktuellen EFI-BIOS aktualisiert.

(/) # fdisk -l | grep -i nvmeFestplatte /dev/nvme0n1: 1,82 TiB, 2000398934016 Bytes, 3907029168 Sektoren/dev/nvme0n1p1   2048 3907028991 3907026944  1,8T Linux RAID

Es fehlt nvme1....

(/) # lspci -v | grep -i nvme03:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd NVMe SSD Controller SM981/PM981/PM983 (prog-if 02 [NVM Express])Kernel driver in use: nvmeKernel modules: nvme
Es ist nur ein Controller sichtbar

im Detail:
03:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd NVMe SSD Controller SM981/PM981/PM983 (prog-if 02 [NVM Express])Subsystem: Samsung Electronics Co Ltd SSD 970 EVOFlags: bus master, fast devsel, latency 0, IRQ 16Memory at 9c100000 (64-bit, non-prefetchable) [size=16K]Capabilities: [40] Power Management version 3Capabilities: [50] MSI: Enable- Count=1/1 Maskable- 64bit+Capabilities: [70] Express Endpoint, MSI 00Capabilities: [b0] MSI-X: Enable+ Count=33 Masked-Capabilities: [100] Advanced Error ReportingCapabilities: [148] Device Serial Number 00-00-00-00-00-00-00-00Capabilities: [158] Power Budgeting <?>Capabilities: [168] Secondary PCI ExpressCapabilities: [188] Latency Tolerance ReportingCapabilities: [190] L1 PM SubstatesKernel driver in use: nvmeKernel modules: nvme 

Derzeit ist nvme1... aus dem Raid-Verbund entfernt. Beide Controller sind eingebaut. Der Server startet durch,
der 2. Controller bleibt aber für das Betriebssystem unsichtbar. Habe auf dem Server testweise ein
Gparted-Live-System gestartet, die Situation ist identisch, auch hier ist der 2 Controller unsichtbar.

Woran kann das liegen? Wie bekomme ich den 2. Controller wieder in Betrieb?

Vielen Dank für die Unterstützung
Keine Antworten!
Keine Veranstaltungen gefunden!

Top