Aktualizace 1. 2. 2018
- Tento problém byl opraven v aktualizované verzi firmwaru a ovladače Mellanox CX4
V hyperkonvergovaném clusteru implementovaném pomocí uzlů Dell EMC s podporou funkce Přímé prostory úložiště Microsoft s adaptéry Dell EMC PowerEdge R740xd a Mellanox CX4 LX pro přenosy úložiště se mohou při restartování uzlu clusteru v prohlížeči>>>> událostí systému Windows zobrazit chyby klienta SMB (ID události 30803).
I když je tento postup normální v clusteru s podporou převzetí služeb při selhání během restartování uzlu, občas se mohou tyto chyby na uzlech clusteru v pravidelných intervalech znovu objevit, a to i poté, co jsou všechny uzly clusteru plně funkční. Toto chování je způsobeno selháním při vytváření naslouchacích procesů SMB pro každé rozhraní úložiště v uzlu, který se restartoval. Tyto chyby se zobrazí na přeživším uzlu v clusteru, nikoli na uzlu, který se restartoval. Popis chyby označuje server, ke kterému se klient SMB pokouší připojit, a adresa serveru v popisu označuje uzel, který byl právě restartován.
V normálním funkčním stavu uzlů clusteru by se po restartování uzlu při spuštění příkazu netstat –xan měl zobrazit naslouchací proces IPv4 a IPv6 přidružený ke každému rozhraní úložiště v uzlu. Následující výstup netstat.exe byl shromážděn v uzlu se dvěma adaptéry úložiště.
Aktivní připojení NetworkDirect, naslouchací procesy, SharedEndpoints
Režim: Typ IfIndex, Místní adresa, Cizí adresaPID
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61476 0
Kernel 4 Connection 10.128.100.101:445 10.128.100.100:62244 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61988 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:62756 0
Kernel 4 Připojení 10.128.100.101:12541 10.128.100.100:445 0
Kernel 4 Connection 10.128.100.101:12797 10.128.100.100:445 0
Připojení jádra 4 10.128.100.101:14077 10.128.100.100:445 0
Kernel 4 Připojení 10.128.100.101:14333 10.128.100.100:445 0
Kernel 14 Připojení 10.128.100.133:445 10.128.100.132:27454 0
Kernel 14 Připojení 10.128.100.133:445 10.128.100.132:27198 0
Jádro 14 Připojení 10.128.100.133:237510.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62535 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62791 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64071 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64327 10.128.100.132:445 0
Kernel 4 Listener [fe80::4cae:cb05:4932:f226%4]:445 NA 0
Kernel 4 Listener 10.128.100.101:445 Není k dispozici 0
Kernel 14 Listener 10.128.100.133:445 Není k dispozici 0
Kernel 14 Listener [fe80::5180:55b6:c0f0:ae8d%14]:445 NA 0
Výpis výstupu 1 – Plně funkční zásobník SMB
Pokud se však v clusteru začnou zobrazovat chyby klienta SMB, nemusí mít restartovaný uzel všechny naslouchací procesy přidružené ke každému rozhraní úložiště v systému.
Aktivní připojení NetworkDirect, naslouchací procesy, SharedEndpoints
Režim: Typ IfIndex, Místní adresa, Cizí adresaPID
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61476 0
Kernel 4 Connection 10.128.100.101:445 10.128.100.100:62244 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61988 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:62756 0
Kernel 4 Připojení 10.128.100.101:12541 10.128.100.100:445 0
Kernel 4 Connection 10.128.100.101:12797 10.128.100.100:445 0
Připojení jádra 4 10.128.100.101:14077 10.128.100.100:445 0
Kernel 4 Připojení 10.128.100.101:14333 10.128.100.100:445 0
Kernel 14 Připojení 10.128.100.133:2375 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62535 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62791 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64071 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64327 10.128.100.132:445 0
Kernel 4 Listener [fe80::4cae:cb05:4932:f226%4]:445 NA 0
Kernel 4 Listener 10.128.100.101:445 Není k dispozici 0
Výpis výstupu 2 – zásobník SMB postrádající naslouchací proces
Proto ve výše uvedeném příkladu bude mít klient SMB, který se pokouší připojit k indexu rozhraní 14, nakonec za následek zprávy odmítnuté připojení a chyby klienta SMB (ID události 30803) související s RDMA
Síťová architektura Dell EMC Microsoft Ready Node doporučuje dva adaptéry úložiště na každý uzel clusteru. V případě tohoto problému nedojde k narušení funkčnosti clusteru. Adaptér, kterému chybí naslouchací proces, je také možné stále použít k odesílání provozu RDMA. Vzhledem k tomu, že na jednom z adaptérů úložiště není žádný naslouchací proces, nelze provádět zápisy pomocí RDMA. Tento adaptér se vrátí k používání protokolu TCP pro všechny zápisy nebo příjem provozu. To může mít za následek nižší výkon zápisu v závislosti na zatížení. V případě tohoto problému nedochází ke ztrátě dat ani k omezení funkčnosti.
To bylo identifikováno jako chyba v ovladači Mellanox CX4 LX WinOF2 verze 1.70 a nižší.
Naslouchací proces SMB lze znovu vytvořit restartováním adaptéru virtuálního úložiště, který nemá po restartování žádný přidružený naslouchací proces SMB. Správný virtuální adaptér pro restart určíte pomocí níže uvedených kroků.
Z výstupu příkazu netstat -xan můžete vidět, že pro jeden z adaptérů úložiště chybí naslouchací proces. Index rozhraní chybějícího adaptéru najdete pomocí rutiny Get-NetAdapter .
PS C:\> Get-NetAdapter
Název Rozhraní Popis ifIndex Stav MacAddress LinkSpeed
______________ __ ___________________ ____ ______vEthernet (Storage2) Virtuální ethernetový adaptér Hyper-V #3 14 Up 00-15-5D-09-C4-0210 Gb/s
Virtuální ethernetový adaptér vEthernet (Storage1) Hyper-V #2, 4 Up 00-15-5D-09-C4-0110 Gb/s
vEthernet (správa) Virtuální ethernetový adaptér Hyper-V 10 až 00-15-5D-09-C4-0010 Gb/s
Ethernetové vzdálené zařízení kompatibilní s NDIS 9 není k dispozici 50-9A-4C-A7-F9-DF 0 b/s
NIC2 Intel(R) Ethernet 10G x710 rNDC 6 odpojeno, 24-6E-96-52-CC-A410 Gb/s
Síťové připojení NIC4 Intel(R) i350 Gigabit... 15 Odpojeno 24-6E-96-52-CC-C3 0 bps
Síťové připojení NIC3 Intel(R) i350 Gigabit... #2 8 Odpojeno 24-6E-96-52-CC-C2 0 bps
NIC 1, Intel(R) Ethernet 10G 4P x710/I350 rNDC 13, odpojeno, 24-6E-96-52-CC-A210 Gb/s
SLOT 1 Port 2 Mellanox ConnectX-4 Lx Ethernet Ad... #2 2 až 24-8A-07-59-4C-6910 Gb/s
SLOT 1 Port 1 Ethernetový adaptér Mellanox ConnectX-4 Lx 11 až 24-8A-07-59-4C-6810 Gb/s
Když se podíváte na výstup netstat –xan (zobrazený ve výpisu výstupu 2), můžete vidět, že rozhraní s indexem 14 nemá přidružený žádný naslouchací proces. Z rutiny Get-NetAdapter vidíte, že index rozhraní 14 je virtuální adaptér vEthernet (Storage2).
Poznámka: Tento název síťového adaptéru se může lišit v závislosti na tom, jak jste pojmenovali adaptéry úložiště v operačním systému pro správu.Nyní můžete restartovat rozhraní s chybějícím naslouchacím procesem.
Restart-NetAdapter –Name 'vEthernet (Storage2)'
Po dokončení tohoto procesu můžete zkontrolovat netstat –xan a ujistit se, že je posluchač vytvořen. This process may take a few minutes. Po vytvoření naslouchacího procesu začnou uzly clusteru normálně komunikovat přes RDMA a v prohlížeči událostí se přestanou zobrazovat nové chyby klienta SMB.