Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

NetWorker: Fejlfindingsvejledning til problemer med Red Hat-klyngetjeneste

Summary: Denne artikel giver en oversigt over, hvordan du håndterer startproblemer for NetWorker-tjenesten for NetWorker-servere, der er implementeret på Red Hat-pacemakerklynger (pc'er). Denne artikel er relevant for NetWorker-sikkerhedskopieringsadministratorer og NetWorker-support som hjælp til fejlfinding af disse problemer. ...

This article applies to   This article does not apply to 

Instructions

NetWorker-servere kan implementeres i en klynge-failover-konfiguration på Red Hat-noder vha. pacemaker-tjenester (pc'er). I denne konfigurationstype installeres NetWorker på to eller flere noder, og NetWorker-serverdatabaserne er placeret på en delt lagerplacering, som overføres mellem noder afhængigt af, hvilken node der er den "aktive" node i pacemakeren. NetWorker-serveren bruger et delt klyngenavn og IP-adresse, så navngivning og adressering er konsistent, uanset hvilken node der er vært for tjenesterne. Se vejledningen til NetWorker-klyngeintegration for at få oplysninger om, hvordan du konfigurerer NetWorker i en klynge. Denne vejledning findes på Dells supportproduktside


Klyngetopologi:

Denne artikel bruger et eksempel på en klynge med følgende konfiguration:

NetWorker Cluster Topology
Værtsnavn
IP-adresse
Funktion
lnx-node1.amer.lan
192.168.9.108
Fysisk node 1
lnx-node2.amer.lan
192.168.9.109
Fysisk node 2
lnx-nwcluster.amer.lan
192.168.9.110
Logisk navn, der anvendes af NetWorker

Filsystemet på noderne administrerer NetWorker ved hjælp af symbolske links.

Aktiv node:
En aktiv node, hvor NetWorker-serveren startes symbolisk forbinder /nsr til den delte lagerplacering:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share
Passiv node:
En "passiv" node forbinder symbolisk /nsr til /nsr. NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share
Når en node er i en passiv tilstand, kører nsrexecd-softwaren (NetWorker Client) altid med /nsr. NetWorker.local. Hver fysisk node har sin egen klientressource ved hjælp af det fysiske knudepunkts DNS-opløsningsnavn og IP-adresse. NetWorker-serveren kører kun med det delte lager (/nsr_share) og bruger den delte IP-adresse og værtsnavn. Dette kan kun være aktivt på én node ad gangen. 

Følgende pacemaker-kommandoer (pc'er) bruges til at få et overblik over pacemaker-konfigurationen og -status:
  • Klyngekonfiguration:
pcs status
Eksempel:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Ud fra ovenstående output kan vi bestemme, hvor mange noder der er i klyngen, og om der er nogen, der er offline eller i standby-status. Outputtet viser også, hvilken node der er vært for det delte filsystem (fs), klyngeressourcens IP-adresse (ip) og NetWorker-tjenesterne (nws). De ressourcenavne, der anvendes her, er de standardindstillinger, der anvendes i vejledningen til NetWorker-klyngeintegration. det er dog muligt, at der bruges forskellige navne. Hvis du bruger forskellige navne, skal du notere ressourcenavnene og udskifte dem efter behov, når du følger instruktionerne i denne artikel.
  • Pacemaker-ressourcekonfiguration:
pcs resource config

Eksempel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10
 
Ovenstående kommando beskriver konfigurationen af hver pc's ressourcer. Vigtige ting at notere sig under den første oversigt:
  • FS-ressource "device=": Det er den enhed, der bruges som monteringspunkt for det delte lager på nodefilsystemet. Denne enhed skal være den samme på hver node. Dette beskrives senere i denne KB.
  • FS-ressource "directory=": Dette er den mappe, som det delte NetWorker-lager bruger. Mappen skal være tilknyttet som monteringspunkt for feltet "device=". Dette beskrives senere i denne KB.
  • IP resource "ip=": Dette er den IP-adresse, der er knyttet til det logiske (delte) værtsnavn, der bruges af NetWorker-serveren. Denne IP-adresse er hostet på den aktive node.
  • Pacemaker-synlighed for den delte adresse og storage:
lcmap

Eksempel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

 

BEMÆRK: Værtsnavnet skal returnere den IP-adresse, der stemmer overens med pc'ens ressourcekonfigurationsfelt "ip=". De ejer stier skal stemme overens med pc'ens ressourcekonfigurationsfelt "directory=". I nogle tilfælde, når der observeres et opstartsproblem, returnerer lcmap-kommandoen ikke felterne værtsnavn, lokal eller ejet sti. Dette er et tegn på et problem.
 

Indledende diagnosticering:

Hvis NetWorker Services ikke starter, skal du kontrollere pc'ens ressourcestatus for at se, hvilken ressource der fejler:

pcs status
Eksempel: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
 
Hvis der konstateres en fejl, returneres der en generel fejl. De defekte ressourcer vises som FAILED. 
  • FS (filsystem): Hvis filsystemet er i fejltilstand, skal du se nedenstående afsnit om Filsystemfejl.
  • IP (IPaddr): Hvis IPaddr er i fejltilstand, skal du se nedenstående afsnit om IPaddr-fejl.
  • NWS (server): Hvis NetWorker-serveren er i fejltilstand, skal du gøre følgende:
  1. Gennemse NetWorker-serverens daemon.raw for eventuelle fejlmeddelelser, der vises under opstart. Serverens /nsr_share/nsr/daemon.raw er placeret i den delte lagringssti. Klientens fysiske noder er i /nsr. NetWorker.local/logs/daemon.raw. Se Dell-artiklen NetWorker: Sådan bruges nsr_render_log
  2. Hvis standardlogføringen ikke er tilstrækkelig, skal du aktivere fejlfinding på følgende måde:
    1. Forsøg at genstarte ressourcen "Server": 
pcs resource cleanup nws
  1. Brug dbgcommand til at aktivere fejlfinding på nsrd-processen:
dbgcommand -n nsrd Debug=#
Angiv et fejlfindingsniveau med tal 1 til 9. Overvåg daemon.raw for eventuelle yderligere meddelelser, der kan være direkte til et problem.
  1. Gennemse /var/log/pcsd/pcsd.log for eventuelle fejl.
  2. Gennemse /var/log/pacemaker/pacemaker.log for eventuelle fejl.
  3. Gennemse /var/log/messages-filen for eventuelle fejl.
BEMÆRK: Under gennemgangen af pc'en, pacemakeren og meddelelseslogfilerne skal du se efter meddelelser, der blev logget inden for samme tidsramme, som NetWorker-tjenesterne forsøgte at starte. Gennemgå for eventuelle fejl/fejl, der falder sammen med servicestartfejlen.
 

Filsystemfejl:

  1. Gennemgå pacemaker-ressourcerne:
pcs resource
  1. Gennemgå pacemaker-ressourcekonfigurationen for filsystemressourcen:
pcs resource fs
Eksempel:
 
Notér enhedsstien, mappestien og fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Bekræft, om enheden er monteret på FS:
df -h

Eksempel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Bekræfte, om monteringspunktet er konfigureret korrekt. tilknytning af enheden til stien:
lsblk

Eksempel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Bekræft, at det filsystem, der anvendes af enheden, er korrekt:
blkid
Eksempel:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Hvis fs-ressourcen (Filsystem) ikke kan starte. Dette er et tegn på et problem, der ligger uden for NetWorker. Klyngens systemadministrator bør blive involveret i at gennemgå klyngens filsystemkonfiguration og bekræfte, at der ikke observeres problemer med den delte lagerplads, der anvendes af pacemakeren. Gennemgå yderligere systemlogfiler vedrørende eventuelle fejl på systemet eller dets enheder:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


IPaddr-fejl:

  1. Gennemgå pacemaker-ressourcerne:
pcs resource
  1. Gennemgå pacemaker-ressourcekonfigurationen for filsystemressourcen:
pcs resource config ip
Eksempel:
 
Notér IP-adressen og NIC.
 
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Bekræft, at netværkskortet er tilgængeligt på systemet:
ifconfig -a
Eksempel: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
 
Den IP-adresse, der vises med ifconfig, svarer til det fysiske nodenavn. Men den klyngede IP kan nås via dette netværkskort, når noden er aktiv. Sørg for, at begge noder er konfigureret til at bruge de samme NIC-navne.
  1. Løses IP-adressen med det korrekte (logiske) værtsnavn, der anvendes af NetWorker-serveren?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Eksempel:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0


Det anbefales også at udføre de samme trin i forhold til den fysiske nodes IP-adresse, FQDN og et kort navn. Se Dell-artiklen Fejlfinding af DNS- og navnefortolkningsproblemer.

  1. Kan du få adgang til klyngens IP-adresse ved hjælp af ping?
ping -c 4 ip
Eksempel:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Hvis IP-ressourcen (IPaddr) ikke starter. Dette er et tegn på et problem, der ligger uden for NetWorker. Klyngens systemadministrator og netværksadministrator bør tilknyttes for at gennemgå klyngenetværkskonfigurationen og bekræfte, at ingen problemer er observeret. Gennemgå yderligere systemlogfiler vedrørende eventuelle fejl på systemet eller dets enheder:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


Andre PCS-kommandoer:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 06 May 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.