NetWorker: Feilsøkingsveiledning for serviceproblem med Red Hat-klynge

Summary: Denne artikkelen inneholder en oversikt over hvordan du nærmer deg oppstartsproblemer med NetWorker-tjenester for NetWorker-servere som er implementert på Red Hat pacemaker-klynger (PC-er). Denne artikkelen passer for NetWorker-administratorer for sikkerhetskopiering og NetWorker-støtte for å hjelpe deg med å feilsøke disse problemene. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

NetWorker-servere kan implementeres i en klynge-failover-konfigurasjon på Red Hat-noder ved hjelp av pacemakertjenester (PC-er). I denne konfigurasjonstypen er NetWorker installert på to eller flere noder, og NetWorker-serverdatabasene befinner seg på en delt lagringsplassering som sendes mellom noder, avhengig av hvilken node som er den "aktive" noden i pacemakeren. NetWorker-serveren bruker et delt klyngenavn og en delt IP-adresse, slik at navngiving og adressering er konsekvent uavhengig av hvilken node som er vert for tjenestene. Se integreringsveiledningen for NetWorker-klynge hvis du vil ha mer informasjon om hvordan du konfigurerer NetWorker i en klynge. Denne veiledningen er tilgjengelig på Dells produktside for kundestøtte.

Klyngetopologi:

Denne artikkelen bruker et eksempel på klynge med følgende konfigurasjon:

NetWorker Cluster Topology

Vertsnavn	IP-adresse	Funksjon
lnx-node1.amer.lan	192.168.9.108	Fysisk node 1
lnx-node2.amer.lan	192.168.9.109	Fysisk node 2
lnx-nwcluster.amer.lan	192.168.9.110	Logisk navn som brukes av NetWorker

Filsystemet på nodene administrerer NetWorker ved hjelp av symbolske koblinger.

Aktiv node:

En aktiv node der NetWorker-serveren startes symbolsk, kobler /nsr til den delte lagringsplasseringen:

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passiv node:

En "passiv" node kobler symbolsk /nsr til /nsr. NetWorker.local:

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Når en node er i passiv tilstand, kjører alltid nsrexecd-programvaren (NetWorker-klient) ved hjelp av /nsr. NetWorker.local. Hver fysiske node har sin egen klientressurs ved hjelp av den fysiske nodens DNS-løsbare navn og IP-adresse. NetWorker-serveren kjører bare ved hjelp av delt lagring (/nsr_share) og bruker den delte IP-adressen og vertsnavnet. Dette kan bare være aktivt på én node om gangen.

Følgende pacemakerkommandoer (PC-er) brukes til å få en oversikt over pacemakerkonfigurasjonen og -statusen:

Klyngekonfigurasjon:

pcs status

Eksempel:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Fra utdataene ovenfor kan vi finne ut hvor mange noder som er i klyngen, og om noen er frakoblet eller i ventemodusstatus. Utdataene viser også hvilken node som er vert for det delte filsystemet (fs), IP-adressen for klyngeressurser (ip) og NetWorker-tjenestene (nws). Ressursnavnene som brukes her, er standardinnstillingene som brukes i integreringsveiledningen for NetWorker-klyngen. Det er imidlertid mulig at ulike navn brukes. Hvis du bruker forskjellige navn, noterer du ressursnavnene og erstatter dem etter behov når du følger instruksjonene i denne artikkelen.

Pacemaker-ressurskonfigurasjon:

pcs resource config

Eksempel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

Kommandoen ovenfor beskriver konfigurasjonen av hver pcs-ressurs. Viktige ting å notere seg under den innledende oversikten:

FS-ressursen "device=": Dette er enheten som brukes som monteringspunkt for delt lagring på nodefilsystemet. Denne enheten må være den samme på hver node. Dette beskrives senere i denne kunnskapsbasen.
FS-ressursen «directory=»: Dette er katalogen som den delte NetWorker-lagringen bruker. Katalogen skal være tilknyttet monteringspunktet for «device=»-feltet. Dette beskrives senere i denne kunnskapsbasen.
IP-ressurs "ip=": Dette er IP-adressen som er knyttet til det logiske (delte) vertsnavnet som brukes av NetWorker-serveren. Denne IP-adressen ligger på den aktive noden.

Pacemaker synlighet for den delte adressen og lagringen:

lcmap

Eksempel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

MERK: Vertsnavnet skal returnere IP-adressen som samsvarer med pcs ressurskonfigurasjon "ip="-feltet. De eide banene skal samsvare med feltet «directory=» for PCS-ressurskonfigurasjonen . I noen tilfeller, når et oppstartsproblem observeres, returnerer ikke lcmap-kommandoen feltene for vertsnavn, lokale eller eide baner; Dette indikerer et problem.

Første diagnose:

Hvis NetWorker-tjenestene ikke starter, kontrollerer du ressursstatusen til PC-en for å se hvilken ressurs som svikter:

pcs status

Eksempel:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Hvis det oppstår en feil, returneres en generell feil. De mislykkede ressursene vises som FAILED (Mislykket).

FS (filsystem): Hvis filsystemet er i en mislykket tilstand, kan du se delen nedenfor om filsystemfeil.
IP (IPaddr): Hvis IPaddr er i en mislykket tilstand, kan du se delen nedenfor om IPaddr-feil.
NWS (server): Hvis NetWorker-serveren er i en mislykket tilstand, utfører du følgende:

Se gjennom NetWorker-serverens daemon.raw for eventuelle feilmeldinger som vises under oppstart. Serverens /nsr_share/nsr/daemon.raw er plassert i den delte lagringsbanen. Daemonen for fysiske noder er i /nsr. NetWorker.local/logs/daemon.raw. Se Dell-artikkelen NetWorker: Slik bruker du nsr_render_log
Hvis standard logging ikke er tilstrekkelig, må du aktivere feilsøking ved hjelp av følgende:
1. Forsøk på å starte serverressursen på nytt:

pcs resource cleanup nws

Bruk dbgcommand til å aktivere feilsøking på nsrd-prosessen:

dbgcommand -n nsrd Debug=#

Angi et feilsøkingsnivå ved hjelp av tall 1 til 9. Overvåk daemon.raw for eventuelle tilleggsmeldinger som kan føre til et problem.

Se etter eventuelle feil i /var/log/pcsd/pcsd.log.
Se etter eventuelle feil i /var/log/pacemaker/pacemaker.log.
Se gjennom filen /var/log/messages for eventuelle feil.

MERK: Når du ser gjennom PCSD-, pacemaker- og meldingsloggene, ser du etter meldinger som ble logget i løpet av den samme tidsrammen som NetWorker-tjenestene forsøkte å starte. Se etter eventuelle feil/feil som sammenfaller med oppstartsfeilen i tjenesten.

Feil i filsystemet:

Se gjennom pacemakerressursene:

pcs resource

Gjennomgå pacemakerressurskonfigurasjonen for filsystemressursen:

pcs resource fs

Eksempel:

Noter deg enhetsbanen, katalogbanen og fstype.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

Bekreft om enheten er montert på FS:

df -h

Eksempel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

Bekreft om monteringspunktet er riktig konfigurert; knytte enheten til banen:

lsblk

Eksempel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

Bekreft at filsystemet som brukes av enheten, er riktig:

blkid

Eksempel:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Hvis fs-ressursen (Filsystem) ikke starter. Dette indikerer et problem utenfor NetWorker. Systemadministratoren i klyngen bør være engasjert til å gjennomgå klyngens filsystemkonfigurasjon og bekrefte at det ikke er observert noen problemer med den delte lagringen som brukes av pacemakeren. Gjennomgå flere systemlogger angående eventuelle feil med systemet eller enhetene:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

IPaddr-feil:

Se gjennom pacemakerressursene:

pcs resource

Gjennomgå pacemakerressurskonfigurasjonen for filsystemressursen:

pcs resource config ip

Eksempel:

Noter deg IP-adressen og NETTVERKSKORTET.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

Bekreft om NIC er tilgjengelig på systemet:

ifconfig -a

Eksempel:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

IP-adressen som vises med ifconfig, samsvarer med navnet på den fysiske noden. IP-adressen for klynge kan imidlertid nås gjennom dette NETTVERKSKORTET når noden er aktiv. Kontroller at begge nodene er konfigurert til å bruke de samme NIC-navnene.

Løses IP-adressen med riktig (logisk) vertsnavn som brukes av NetWorker-serveren?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Eksempel:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Det anbefales også å utføre de samme trinnene mot den fysiske nodens IP-adresse, FQDN og kortnavn. Se Dell-artikkelen Feilsøke problemer med DNS og navneløsing.

Kan du nå IP-adressen for klynge ved hjelp av ping?

ping -c 4 ip

Eksempel:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

Hvis IP-ressursen (IPaddr) ikke starter. Dette indikerer et problem utenfor NetWorker. Systemadministratoren og nettverksadministratoren i klyngen bør være engasjert til å gjennomgå nettverkskonfigurasjonen i klyngen og bekrefte at det ikke er observert noen problemer. Gjennomgå flere systemlogger angående eventuelle feil med systemet eller enhetene:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Andre PCS-kommandoer:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000218281

Article Type: How To

Last Modified: 06 May 2024

Version: 4

Check if your device is covered by Support Services.

NetWorker: Feilsøkingsveiledning for serviceproblem med Red Hat-klynge

Instructions

Klyngetopologi:

Første diagnose:

Feil i filsystemet:

IPaddr-feil:

Andre PCS-kommandoer:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

NetWorker: Feilsøkingsveiledning for serviceproblem med Red Hat-klynge

Detailed Article

Instructions

Affected Products

Instructions

Klyngetopologi:

Første diagnose:

Feil i filsystemet:

IPaddr-feil:

Andre PCS-kommandoer:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services