Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

NetWorker: Průvodce odstraňováním problémů se službou clusteru Red Hat

Summary: Tento článek poskytuje přehled přístupu k problémům se spouštěním služby NetWorker u serverů NetWorker nasazených v clusterech Red Hat Pacemaker (pcs). Tento článek je vhodný pro správce zálohování NetWorker a podporu NetWorker, které vám pomohou s odstraňováním těchto problémů. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Servery NetWorker lze nasadit v konfiguraci převzetí služeb při selhání clusteru na uzlech Red Hat pomocí služeb pacemakeru (pcs). V tomto typu konfigurace se software NetWorker instaluje na dva nebo více uzlů a databáze serveru NetWorker jsou umístěny ve sdíleném úložišti, které se předává mezi uzly podle toho, který uzel je "aktivní" v nástroji Pacemaker. Server NetWorker používá název sdíleného clusteru a IP adresu, takže jeho pojmenování a adresování jsou konzistentní bez ohledu na to, který uzel hostuje služby. Podrobnosti o nastavení nástroje NetWorker v clusteru naleznete v příručce integrace clusteru NetWorker. Tato příručka je k dispozici na stránce podpory společnosti Dell


Topologie clusteru:

Tento článek používá příklad clusteru s následující konfigurací:

NetWorker Cluster Topology.
Název hostitele
IP adresa
Funkce
lnx-node1.amer.lan
192.168.9.108
Fyzický uzel 1
lnx-node2.amer.lan
192.168.9.109
Fyzický uzel 2
lnx-nwcluster.amer.lan
192.168.9.110
Logický název používaný nástrojem NetWorker

Systém souborů v uzlech spravuje netWorker pomocí symbolických odkazů.

Aktivní uzel:
Aktivní uzel, kde je server NetWorker spuštěn symbolicky propojuje /nsr s umístěním sdíleného úložiště:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share
Pasivní uzel:
Symbolické spojení /nsr s uzlem /nsr jako "pasivní". NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share
Když je uzel v pasivním stavu, software nsrexecd (klient NetWorker) je vždy spuštěn pomocí příkazu /nsr. NetWorker.local. Každý fyzický uzel má svůj vlastní zdroj klienta pomocí překladného názvu DNS a IP adresy fyzického uzlu. Server NetWorker běží pouze se sdíleným úložištěm (/nsr_share) a používá sdílenou IP adresu a název hostitele. To může být aktivní pouze na jednom uzlu po druhém. 

Následující příkazy pacestimulátoru (počítačů) se používají k získání přehledu konfigurace a stavu kardiostimulátoru:
  • Konfigurace clusteru:
pcs status
Příklad:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Z výše uvedeného výstupu můžeme určit, kolik uzlů je v clusteru a zda jsou v režimu offline nebo v pohotovostním režimu. Výstup také ukazuje, který uzel hostuje sdílený souborový systém (fs), IP adresu zdroje clusteru (ip) a služby NetWorker (nws). Zde použité názvy zdrojů jsou výchozí hodnoty používané v Průvodci integrací clusteru NetWorker. je však možné, že se používají různé názvy. Pokud používáte různé názvy, poznamenejte si názvy zdrojů a podle potřeby je vyměňte podle pokynů v tomto článku.
  • Konfigurace zdrojů pacestimulátoru:
pcs resource config

Příklad:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10
 
Výše uvedený příkaz podrobně popisuje konfiguraci zdrojů jednotlivých počítačů. Důležité informace, které je třeba si poznamenat během počátečního přehledu:
  • Zdroj FS "device=": Toto je zařízení používané jako přípojný bod pro sdílené úložiště v systému souborů uzlu. Toto zařízení musí být stejné na každém uzlu. To je popsáno dále v tomto článku databáze znalostí.
  • Zdroj FS "directory=": Toto je adresář, který využívá sdílené úložiště NetWorker. Adresář by měl být přiřazen jako přípojný bod pole "device=". To je popsáno dále v tomto článku databáze znalostí.
  • Zdroj IP "ip=": Jedná se o IP adresu spojenou s logickými (sdílenými) názvy hostitelů používanými serverem NetWorker. Tato IP adresa je hostována na aktivním uzlu.
  • Viditelnost sdílené adresy a úložiště ze strany kardiostimulátoru:
lcmap

Příklad:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

 

POZNÁMKA: Název hostitele by měl vrátit IP adresu shodnou v poli "ip=" v konfiguraci zdroje pcs . Vlastněné cesty by se měly shodovat s polem "directory=" konfigurace zdroje pcs . Pokud je v některých případech pozorován problém se spuštěním, příkaz lcmap nevrátí pole hostname, local nebo owned paths; To značí problém.
 

Počáteční diagnostika:

Pokud se nespustí služby NetWorker, zkontrolujte stav zdrojů počítačů a zjistěte, který zdroj selhává:

pcs status
Příklad: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
 
Pokud dojde k chybě, zobrazí se chyba general failure. Vadné zdroje se zobrazují jako FAILED. 
  • FS (Filesystem): Pokud je systém souborů ve stavu selhání, přečtěte si níže uvedenou část o selhání systému souborů.
  • IP adresa (IPaddr): Pokud je zařízení IPaddr ve stavu selhání, přečtěte si níže uvedenou část o selhání zařízení IPaddr.
  • NWS (server): Pokud je server NetWorker ve stavu selhání, proveďte následující kroky:
  1. Zkontrolujte, zda v souboru daemon.raw serveru NetWorker nejsou zobrazeny zprávy o selhání, které se zobrazí během spouštění. Soubor /nsr_share/nsr/daemon.raw serveru se nachází v cestě sdíleného úložiště. Démon klienta fyzických uzlů je v souboru /nsr. NetWorker.local/logs/daemon.raw. Viz článek společnosti Dell NetWorker: Jak používat nsr_render_log
  2. Pokud výchozí protokolování nestačí, povolte ladění následujícím způsobem:
    1. Pokuste se restartovat zdroj "Server": 
pcs resource cleanup nws
  1. Pomocí příkazu dbg povolte ladění v procesu nsrd:
dbgcommand -n nsrd Debug=#
Nastavte úroveň ladění pomocí čísel 1 až 9. Sledujte soubor daemon.raw a sledujte další zprávy, které mohou na problém směrovat.
  1. Zkontrolujte, zda v protokolu /var/log/pcsd/pcsd.log nejsou žádné chyby.
  2. Zkontrolujte protokol /var/log/pacemaker/pacemaker.log, zda se nevykazuje chyby.
  3. Zkontrolujte, zda v souboru /var/log/messages nejsou nějaké chyby.
POZNÁMKA: Při kontrole protokolů pcsd, pacemakeru a zpráv vyhledejte zprávy, které byly zaznamenány během stejného pokusu o spuštění služeb NetWorker. Zkontrolujte, zda se nevykazují chyby nebo závady, které se shodují se selháním spuštění služby.
 

Selhání systému souborů:

  1. Podívejte se na zdroje pacestimulátoru:
pcs resource
  1. Kontrola konfigurace zdrojů pacemakeru pro zdroj systému souborů:
pcs resource fs
Příklad:
 
Poznamenejte si cestu k zařízení, cestu k adresáři a fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Zkontrolujte, zda je zařízení připojeno do systému FS:
df -h

Příklad:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Zkontrolujte, zda je přípojný bod správně nakonfigurován. přiřazení zařízení cestou:
lsblk

Příklad:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Ověřte, zda je systém souborů používaný zařízením správný:
blkid
Příklad:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Pokud se zdroj fs (Filesystem) nedaří spustit. To značí problém mimo aplikaci NetWorker. Měl by být zapojen správce systému clusteru, který zkontroluje konfiguraci systému souborů clusteru a potvrdí, že se u sdíleného úložiště používaného akcetibilním nástrojem nedochází k žádným problémům. Kontrola dalších systémových protokolů týkajících se jakýchkoli selhání systému nebo jeho zařízení:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


Selhání IPaddr:

  1. Podívejte se na zdroje pacestimulátoru:
pcs resource
  1. Kontrola konfigurace zdrojů pacemakeru pro zdroj systému souborů:
pcs resource config ip
Příklad:
 
Poznamenejte si IP adresu a síťovou kartu.
 
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Zkontrolujte, zda je v systému dostupná síťová karta:
ifconfig -a
Příklad: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
 
Ip adresa zobrazená s příkazem ifconfig odpovídá názvu fyzického uzlu; Pokud je však uzel aktivní, je IP adresa clusterovaná prostřednictvím této síťové karty dosažitelná. Ujistěte se, že jsou oba uzly nakonfigurovány tak, aby používaly stejné názvy síťových adaptérů.
  1. Překládá IP adresa správný (logický) název hostitele používaný serverem NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Příklad:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0


Doporučujeme také provést stejné kroky s IP adresou fyzického uzlu, plně kvalifikovaným názvem domény (FQDN) a krátkým názvem. Přečtěte si článek společnosti Dell Odstraňování problémů se serverem DNS a překladem názvů.

  1. Lze získat IP adresu clusteru pomocí příkazu ping?
ping -c 4 ip
Příklad:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Pokud se zdroj IP (IPaddr) nedaří spustit. To značí problém mimo aplikaci NetWorker. Měli byste zapojit správce systému clusteru a správce sítě, aby zkontrolovali konfiguraci sítě clusteru a ověřili, že nedochází k žádným problémům. Kontrola dalších systémových protokolů týkajících se jakýchkoli selhání systému nebo jeho zařízení:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


Další příkazy PCS:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 06 May 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.