NetWorker: Przewodnik rozwiązywania problemów z usługą klastra Red Hat

Summary: Ten artykuł zawiera omówienie sposobu podejścia do problemów z uruchamianiem usługi NetWorker dla serwerów NetWorker wdrożonych w klastrach Red Hat Pacemaker (pcs). Ten artykuł jest odpowiedni dla administratorów kopii zapasowych NetWorker i pomocy technicznej NetWorker w celu ułatwienia rozwiązywania tych problemów. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Serwery NetWorker można wdrożyć w konfiguracji przełączania awaryjnego klastra na węzłach Red Hat przy użyciu usług pacemaker (pcs). W tym typie konfiguracji oprogramowanie NetWorker jest instalowane na co najmniej dwóch węzłach, a bazy danych serwerów NetWorker znajdują się we współdzielonej lokalizacji pamięci masowej, która jest przekazywana między węzłami w zależności od węzła jako "aktywnego" węzła w rozruszniku serca. Serwer NetWorker używa wspólnej nazwy klastra i adresu IP, dzięki czemu jego nazewnictwo i adresowanie są spójne niezależnie od węzła, który hostuje usługi. Aby uzyskać szczegółowe informacje na temat konfigurowania programu NetWorker w klastrze, zapoznaj się z podręcznikiem integracji klastra NetWorker. Ten przewodnik jest dostępny na stronie pomocy technicznej firmy Dell.

Topologia klastra:

W tym artykule wykorzystano przykładowy klaster z następującą konfiguracją:

Topologia klastra NetWorker

Nazwa hosta	Adres IP	Funkcja
lnx-node1.amer.lan	192.168.9.108	Węzeł fizyczny 1
lnx-node2.amer.lan	192.168.9.109	Węzeł fizyczny 2
lnx-nwcluster.amer.lan	192.168.9.110	Nazwa logiczna używana przez NetWorker

System plików w węzłach zarządza programem NetWorker przy użyciu łączy symbolicznych.

Aktywny węzeł:

Aktywny węzeł, w którym uruchomiono serwer NetWorker, symbolizuje łącza /nsr do udostępnionej lokalizacji pamięci masowej:

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Węzeł pasywny:

Węzeł "pasywny" symbolizuje łącza /nsr do /nsr. NetWorker.local:

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Gdy węzeł znajduje się w stanie pasywnym, oprogramowanie nsrexecd (klient NetWorker) jest zawsze uruchomione przy użyciu /nsr. NetWorker.local. Każdy węzeł fizyczny ma swój własny zasób kliencki przy użyciu nazwy i adresu IP w systemie DNS węzła fizycznego. Serwer NetWorker działa tylko przy użyciu udostępnionej pamięci masowej (/nsr_share) i używa udostępnionego adresu IP i nazwy hosta. Może to być aktywne tylko w jednym węźle jednocześnie.

Poniższe polecenia pacemaker (pcs) służą do uzyskania przeglądu konfiguracji i stanu rozrusznika serca:

Konfiguracja klastra:

pcs status

Przykład:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Na podstawie powyższych danych wyjściowych możemy określić liczbę węzłów w klastrze oraz stan offline lub w trybie gotowości. Dane wyjściowe pokazują również, który węzeł hostuje udostępniony system plików (fs), adres IP zasobu klastra (ip) i usługi NetWorker (nws). Nazwy zasobów używane tutaj są ustawieniami domyślnymi używanymi w podręczniku integracji klastra NetWorker; istnieje jednak możliwość użycia różnych nazw. Jeśli używasz różnych nazw, zapisz nazwy zasobów i w razie potrzeby zamień je, postępując zgodnie z instrukcjami zawartymi w tym artykule.

Konfiguracja zasobów pacemaker:

pcs resource config

Przykład:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

Powyższe polecenie zawiera szczegółowe informacje na temat konfiguracji zasobów komputera. Ważne rzeczy, o których należy pamiętać podczas wstępnego przeglądu:

Zasób FS "device=": Jest to urządzenie używane jako punkt montowania współużytkowanej pamięci masowej w systemie plików węzła. To urządzenie musi być takie samo w każdym węźle. Jest to omówione w dalszej części tej bazy wiedzy.
Zasób FS "directory=": Jest to katalog, z którego korzysta współdzielona pamięć masowa NetWorker. Katalog powinien być powiązany jako punkt montowania dla pola "device=". Jest to omówione w dalszej części tej bazy wiedzy.
Zasób IP "ip=": Jest to adres IP powiązany z nazwą hosta logicznego (udostępnionego) używaną przez serwer NetWorker. Ten adres IP jest hostowany w aktywnym węźle.

Widoczność współdzielonego adresu i pamięci masowej przez program Pacemaker:

lcmap

Przykład:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

UWAGA: Nazwa hosta powinna zwrócić adres IP dopasowany z pola "ip=" zasobu komputera . Ścieżki należące do własności powinny być zgodne z polem resource config "directory=" komputera. W niektórych przypadkach po wystąpieniu problemu z uruchamianiem polecenie lcmap nie zwraca pól nazw hostów, lokalnych lub własnych ścieżek; oznacza to problem.

Wstępna diagnoza:

Jeśli nie można uruchomić usług NetWorker, sprawdź stan zasobów komputerów, aby sprawdzić, który zasób kończy się niepowodzeniem:

pcs status

Przykład:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

W przypadku wystąpienia awarii zwracany jest ogólny błąd awarii. Uszkodzone zasoby są wyświetlane jako NIEUDANE.

FS (system plików): Jeśli system plików jest w stanie awarii, zapoznaj się z poniższą sekcją dotyczącą awarii systemu plików.
Adres IP (IPaddr): Jeśli IPaddr jest w stanie awarii, zapoznaj się z poniższą sekcją dotyczącą awarii IPaddr.
NWS (serwer): Jeśli serwer NetWorker jest w stanie awarii, wykonaj następujące czynności:

Przejrzyj daemon.raw serwera NetWorker pod kątem komunikatów o awarii, które pojawiają się podczas uruchamiania komputera. Plik /nsr_share/nsr/daemon.raw serwera znajduje się we współdzielonej ścieżce pamięci masowej. Demon klienta węzłów fizycznych znajduje się w /nsr. NetWorker.local/logs/daemon.raw. Zapoznaj się z artykułem Firmy Dell NetWorker: korzystanie z nsr_render_log
Jeśli domyślne rejestrowanie nie jest wystarczające, włącz debugowanie za pomocą następujących elementów:
1. Spróbuj ponownie uruchomić zasób "Serwer":

pcs resource cleanup nws

Użyj polecenia dbgcommand, aby włączyć debugowanie w procesie nsrd:

dbgcommand -n nsrd Debug=#

Ustaw poziom debugowania przy użyciu cyfr od 1 do 9. Monitoruj daemon.raw pod kątem wszelkich dodatkowych komunikatów, które mogą powodować problem.

Przejrzyj plik /var/log/pcsd/pcsd.log pod kątem błędów.
Sprawdź plik /var/log/pacemaker/pacemaker.log pod kątem błędów.
Sprawdź plik /var/log/messages pod kątem błędów.

UWAGA: Podczas przeglądania dzienników pcsd, pacemaker i komunikatów wyszukaj komunikaty, które zostały zarejestrowane w tym samym czasie, w którym próbowano uruchomić usługi NetWorker. Sprawdź, czy nie występują błędy/awarie, które pokrywają się z niepowodzeniem uruchamiania usługi.

Awarie systemu plików:

Zapoznaj się z zasobami pacemaker:

pcs resource

Przegląd konfiguracji zasobów pacemaker dla zasobu FileSystem:

pcs resource fs

Przykład:

Zapisz ścieżkę urządzenia, ścieżkę katalogu i fstype.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

Sprawdź, czy urządzenie jest zamontowane w FS:

df -h

Przykład:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

Sprawdź, czy punkt montażowy jest prawidłowo skonfigurowany. Kojarzenie urządzenia ze ścieżką:

lsblk

Przykład:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

Sprawdź, czy system plików używany przez urządzenie jest prawidłowy:

blkid

Przykład:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Jeśli nie można uruchomić zasobu fs (FileSystem). Wskazuje to na problem poza oprogramowaniem NetWorker. Należy zaangażować administratora systemu klastra w celu sprawdzenia konfiguracji systemu plików klastra i potwierdzenia, że nie występują żadne problemy ze współdzieloną pamięcią masową używaną przez rozrusznik serca. Przejrzyj dodatkowe dzienniki systemu dotyczące wszelkich awarii systemu lub jego urządzeń:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Awarie IPaddr:

Zapoznaj się z zasobami pacemaker:

pcs resource

Przegląd konfiguracji zasobów pacemaker dla zasobu FileSystem:

pcs resource config ip

Przykład:

Zanotuj adres IP i kartę sieciowa.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

Sprawdź, czy karta sieciowa jest dostępna w systemie:

ifconfig -a

Przykład:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

Adres IP wyświetlany z poleceniem ifconfig odpowiada nazwie węzła fizycznego; jednak klastrowany adres IP jest osiągalny za pośrednictwem tej karty sieciowej, gdy węzeł jest aktywny. Upewnij się, że oba węzły są skonfigurowane do używania tych samych nazw kart sieciowych.

Czy adres IP rozwiązuje prawidłową (logiczną) nazwę hosta używaną przez serwer NetWorker?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Przykład:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Zaleca się również wykonanie tych samych czynności w odniesieniu do adresu IP, nazwy FQDN i krótkiej nazwy węzła fizycznego. Zapoznaj się z artykułem firmy Dell Rozwiązywanie problemów z DNS i rozpoznawaniem nazw.

Czy można uzyskać dostęp do adresu IP klastra za pomocą polecenia ping?

ping -c 4 ip

Przykład:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

Jeśli nie można uruchomić zasobu IP (IPaddr). Wskazuje to na problem poza oprogramowaniem NetWorker. Administrator systemu klastra i administrator sieci powinni być zaangażowani w sprawdzenie konfiguracji sieci klastra i potwierdzenie, że nie występują żadne problemy. Przejrzyj dodatkowe dzienniki systemu dotyczące wszelkich awarii systemu lub jego urządzeń:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Inne polecenia PCS:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000218281

Article Type: How To

Last Modified: 06 May 2024

Version: 4

Check if your device is covered by Support Services.

NetWorker: Przewodnik rozwiązywania problemów z usługą klastra Red Hat

Instructions

Topologia klastra:

Wstępna diagnoza:

Awarie systemu plików:

Awarie IPaddr:

Inne polecenia PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

NetWorker: Przewodnik rozwiązywania problemów z usługą klastra Red Hat

Detailed Article

Instructions

Affected Products

Instructions

Topologia klastra:

Wstępna diagnoza:

Awarie systemu plików:

Awarie IPaddr:

Inne polecenia PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services