Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

NetWorker: Probleemoplossingsgids voor Red Hat Cluster Service-probleem

Summary: Dit artikel biedt een overzicht van hoe u opstartproblemen van de NetWorker-service voor NetWorker-servers kunt aanpakken die zijn geïmplementeerd op Red Hat pacemaker (pc's) clusters. Dit artikel is geschikt voor NetWorker back-upbeheerders en NetWorker support om u te helpen bij het oplossen van deze problemen. ...

This article applies to   This article does not apply to 

Instructions

NetWorker-servers kunnen worden geïmplementeerd in een cluster-failoverconfiguratie op Red Hat-knooppunten met behulp van pacemaker-services (pc's). In dit configuratietype wordt NetWorker op twee of meer knooppunten geïnstalleerd en bevinden de NetWorker-serverdatabases zich op een gedeelde storagelocatie die wordt doorgegeven tussen knooppunten, afhankelijk van welk knooppunt het 'actieve' knooppunt in de pacemaker is. De NetWorker-server gebruikt een gedeelde clusternaam en IP-adres, zodat de naam en adressering consistent is, ongeacht welk knooppunt de services host. Zie de NetWorker Cluster Integration Guide voor meer informatie over het instellen van NetWorker in een cluster. Deze handleiding is beschikbaar op de Dell Support productpagina


Clustertopologie:

Dit artikel gebruikt een voorbeeldcluster met de volgende configuratie:

NetWorker Cluster Topology
Hostnaam
IP-adres
Functie
lnx-node1.amer.lan
192.168.9.108
Fysiek knooppunt 1
lnx-node2.amer.lan
192.168.9.109
Fysiek knooppunt 2
lnx-nwcluster.amer.lan
192.168.9.110
Logische naam gebruikt door NetWorker

Het bestandssysteem op de knooppunten beheert NetWorker met symbolische koppelingen.

Actief knooppunt:
Een actief knooppunt waar de NetWorker-server wordt gestart, koppelt /nsr symbolisch aan de gedeelde storagelocatie:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share
Passief knooppunt:
Een 'passief' knooppunt koppelt /nsr symbolisch aan /nsr. NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share
Wanneer een knooppunt zich in een passieve status bevindt, wordt de nsrexecd -software (NetWorker client) altijd uitgevoerd met behulp van /nsr. NetWorker.local. Elk fysiek knooppunt heeft een eigen clientresource met behulp van de DNS-naam en het IP-adres van het fysieke knooppunt. De NetWorker-server draait alleen met behulp van de gedeelde storage (/nsr_share) en gebruikt het gedeelde IP-adres en de hostnaam. Dit kan slechts op één knooppunt tegelijk actief zijn. 

De volgende pacemakeropdrachten (pc's) worden gebruikt om een overzicht te krijgen van de configuratie en status van de pacemaker:
  • Clusterconfiguratie:
pcs status
Voorbeeld:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Uit de bovenstaande uitvoer kunnen we bepalen hoeveel knooppunten zich in het cluster bevinden en of er knooppunten offline zijn of in de stand-bymodus staan. De uitvoer toont ook welk knooppunt het gedeelde bestandssysteem (fs), het IP-adres van de clusterbron (IP) en de NetWorker-services (nws) hostt. De bronnamen die hier worden gebruikt, zijn de standaardnamen die worden gebruikt in de NetWorker Cluster Integration Guide. Het is echter mogelijk dat verschillende namen worden gebruikt. Als u verschillende namen gebruikt, noteer dan de resourcenamen en vervang deze indien nodig wanneer u de instructies in dit artikel volgt.
  • Pacemaker resourceconfiguratie:
pcs resource config

Voorbeeld:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10
 
Met de bovenstaande opdracht wordt de resourcesconfiguratie van elke pc beschreven. Belangrijke punten waar u op moet letten tijdens het eerste overzicht:
  • FS-bron "device=": Dit is het apparaat dat wordt gebruikt als koppelpunt voor de gedeelde storage op het bestandssysteem van het knooppunt. Dit apparaat moet op elk knooppunt hetzelfde zijn. Dit wordt later in dit KB-artikel besproken.
  • FS-bron "directory=": Dit is de map die de gedeelde NetWorker-storage gebruikt. De directory moet worden gekoppeld als het koppelpunt voor het veld "device=". Dit wordt later in dit KB-artikel besproken.
  • IP-bron "ip=": Dit is het IP-adres dat is gekoppeld aan de logische (gedeelde) hostnaam die wordt gebruikt door de NetWorker server. Dit IP-adres wordt gehost op het actieve knooppunt.
  • Zichtbaarheid van pacemaker van het gedeelde adres en de storage:
lcmap

Voorbeeld:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

 

OPMERKING: De hostnaam moet het IP-adres retourneren dat overeenkomt met het veld pcs resource config "ip=". De paden die in eigendom zijn, moeten overeenkomen met het veld pcs resource config "directory=". In sommige gevallen, wanneer een opstartprobleem wordt waargenomen, retourneert de lcmap-opdracht de velden hostnaam, local of owned paths niet; dit duidt op een probleem.
 

Initiële diagnose:

Als De NetWorker-services niet starten, controleert u de status van de pc's-resource om te zien welke resource defect is:

pcs status
Voorbeeld: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
 
Als een fout wordt waargenomen, wordt een algemene fout geretourneerd. De resources met de fout worden weergegeven als FAILED. 
  • FS (bestandssysteem): Als het bestandssysteem een defecte status heeft, raadpleegt u het onderstaande gedeelte over bestandssysteemstoringen.
  • IP (IPaddr): Als de IPaddr zich in een storingsstatus bevindt, raadpleegt u het onderstaande gedeelte over IPaddr-storingen.
  • NWS (server): Als de NetWorker-server een mislukte status heeft, voert u het volgende uit:
  1. Controleer de daemon.raw van de NetWorker server op eventuele foutmeldingen die worden weergegeven tijdens het opstarten. De /nsr_share/nsr/daemon.raw van de server bevindt zich in het pad naar gedeelde storage. De client-daemon van fysieke knooppunten bevindt zich in de /nsr. NetWorker.local/logs/daemon.raw. Zie het Dell artikel NetWorker: Het gebruik van nsr_render_log
  2. Als de standaardregistratie niet voldoende is, schakelt u foutopsporing als volgt in:
    1. Probeer de "Server"-bron opnieuw op te starten: 
pcs resource cleanup nws
  1. Gebruik de dbgcommand om foutopsporing in te schakelen op het nsrd-proces:
dbgcommand -n nsrd Debug=#
Stel een foutopsporingsniveau in met de nummers 1 tot en met 9. Controleer daemon.raw op eventuele extra berichten die kunnen leiden tot een probleem.
  1. Controleer /var/log/pcsd/pcsd.log op eventuele fouten.
  2. Controleer het /var/log/pacemaker/pacemaker.log op eventuele fouten.
  3. Controleer het bestand /var/log/messages op eventuele fouten.
OPMERKING: Bij het controleren van de logboeken van pcsd, pacemaker en berichten, zoekt u naar berichten die zijn vastgelegd tijdens hetzelfde tijdsbestek dat NetWorker-services probeerden te starten. Controleer op eventuele fouten/storingen die samenvallen met de fout bij het opstarten van de service.
 

Bestandssysteemfouten:

  1. Bekijk de bronnen van de pacemaker:
pcs resource
  1. Controleer de pacemaker resourceconfiguratie voor de filesystem resource:
pcs resource fs
Voorbeeld:
 
Noteer het apparaatpad, het directorypad en het fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Controleer of het apparaat is gekoppeld aan de FS:
df -h

Voorbeeld:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Controleer of het koppelpunt correct is geconfigureerd; het apparaat koppelen aan het pad:
lsblk

Voorbeeld:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Controleer of het bestandssysteem dat door het apparaat wordt gebruikt correct is:
blkid
Voorbeeld:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Als de FS-bron (Filesystem) niet kan worden gestart. Dit duidt op een probleem buiten NetWorker. De systeembeheerder van het cluster moet worden ingeschakeld om de configuratie van het bestandssysteem van het cluster te bekijken en te bevestigen dat er geen problemen worden waargenomen met de gedeelde storage die door pacemaker wordt gebruikt. Controleer aanvullende systeemlogboeken met betrekking tot eventuele fouten met het systeem of de bijbehorende apparaten:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


IPaddr-fouten:

  1. Bekijk de bronnen van de pacemaker:
pcs resource
  1. Controleer de pacemaker resourceconfiguratie voor de filesystem resource:
pcs resource config ip
Voorbeeld:
 
Noteer het IP-adres en de NIC.
 
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Controleer of de NIC beschikbaar is op het systeem:
ifconfig -a
Voorbeeld: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
 
Het IP-adres dat wordt weergegeven met ifconfig komt overeen met de naam van het fysieke knooppunt; Het geclusterde IP is echter bereikbaar via deze NIC wanneer het knooppunt actief is. Zorg ervoor dat beide knooppunten zijn geconfigureerd om dezelfde NIC-namen te gebruiken.
  1. Wordt het IP-adres omgezet naar de juiste (logische) hostnaam die wordt gebruikt door de NetWorker-server?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Voorbeeld:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0


Het wordt ook aanbevolen om dezelfde stappen uit te voeren tegen het IP-adres, de FQDN en de korte naam van het fysieke knooppunt. Zie het Dell artikel Problemen met DNS en naamresolutie oplossen.

  1. Kunt u het IP-adres van het cluster bereiken met behulp van ping?
ping -c 4 ip
Voorbeeld:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Als de IP-bron (IPaddr) niet kan worden gestart. Dit duidt op een probleem buiten NetWorker. De systeembeheerder en netwerkbeheerder van het cluster moeten worden ingeschakeld om de netwerkconfiguratie van het cluster te bekijken en te bevestigen dat er geen problemen worden waargenomen. Controleer aanvullende systeemlogboeken met betrekking tot eventuele fouten met het systeem of de bijbehorende apparaten:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


Andere PCS-opdrachten:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 06 May 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.