NetWorker: Guía de solución de problemas para el problema de servicio de clúster de Red Hat

Summary: En este artículo, se proporciona una descripción general de cómo abordar los problemas de inicio del servicio de NetWorker para los servidores de NetWorker implementados en clústeres de marcapasos (PC) de Red Hat. Este artículo es adecuado para que los administradores de respaldo de NetWorker y el soporte de NetWorker ayuden a solucionar estos problemas. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Los servidores de NetWorker se pueden implementar en una configuración de conmutación por error de clúster en nodos de Red Hat mediante servicios de marcapasos (PCS). En este tipo de configuración, NetWorker se instala en dos o más nodos y las bases de datos del servidor de NetWorker residen en una ubicación de almacenamiento compartido que se transmite entre nodos, según el nodo que sea el nodo "activo" en el marcapasos. El servidor de NetWorker utiliza un nombre de clúster compartido y una dirección IP para que su asignación de nombres y direcciones sea coherente, independientemente del nodo que acoja los servicios. Consulte la Guía de integración de clústeres de NetWorker para obtener detalles sobre cómo configurar NetWorker en un clúster. Esta guía está disponible en la página de productos de soporte de Dell.

Topología de clúster:

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:

Topología de clúster de NetWorker

Nombre del host	Dirección IP	Función
lnx-node1.amer.lan	192.168.9.108	Nodo físico 1
lnx-node2.amer.lan	192.168.9.109	Nodo físico 2
lnx-nwcluster.amer.lan	192.168.9.110	Nombre lógico utilizado por NetWorker

El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.

Nodo activo:

Un nodo activo donde se inicia el servidor de NetWorker vincula /nsr de manera simbólico a la ubicación de almacenamiento compartido:

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nodo pasivo:

Un nodo "pasivo" vincula de manera simbólico /nsr a /nsr. NetWorker.local:

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Cuando un nodo está en un estado pasivo, el software nsrexecd (cliente de NetWorker) siempre se ejecuta mediante /nsr. NetWorker.local. Cada nodo físico tiene su propio recurso de cliente mediante el nombre dns y la dirección IP que se pueden resolver del nodo físico. El servidor de NetWorker solo se ejecuta mediante el almacenamiento compartido (/nsr_share) y utiliza la dirección IP y el nombre de host compartidos. Esto solo puede estar activo en un nodo a la vez.

Los siguientes comandos de marcapasos (pcs) se utilizan para obtener una descripción general de la configuración y el estado del marcapasos:

Configuración del clúster:

pcs status

Ejemplo:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

A partir de la salida anterior, podemos determinar cuántos nodos se encuentran en el clúster y si alguno está offline o en estado de espera. La salida también muestra qué nodo aloja el sistema de archivos compartido (fs), la dirección IP de recursos del clúster (ip) y los servicios de NetWorker (nws). Los nombres de recursos que se utilizan aquí son los valores predeterminados que se utilizan en la Guía de integración de clústeres de NetWorker; sin embargo, es posible que se utilicen nombres diferentes. Si utiliza nombres diferentes, tome nota de los nombres de los recursos y reemplácelo según sea necesario cuando siga las instrucciones de este artículo.

Configuración de recursos de marcapasos:

pcs resource config

Ejemplo:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

El comando anterior detalla la configuración de cada pcs resources. Aspectos importantes que debe tener en cuenta durante la descripción general inicial:

Recurso de FS "device=": Este es el dispositivo utilizado como punto de montaje para el almacenamiento compartido en el sistema de archivos de nodo. Este dispositivo debe ser el mismo en cada nodo. Esto se analiza más adelante en este artículo de la base de conocimientos.
Recurso de FS "directory=": Este es el directorio que utiliza el almacenamiento compartido de NetWorker. El directorio debe estar asociado como el punto de montaje para el campo "device=". Esto se analiza más adelante en este artículo de la base de conocimientos.
Recurso de IP "ip=": Esta es la dirección IP que está asociada con el nombre de host lógico (compartido) que utiliza el servidor de NetWorker. Esta dirección IP se aloja en el nodo activo.

Visibilidad del marcapasos de la dirección y el almacenamiento compartidos:

lcmap

Ejemplo:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

NOTA: El nombre de host debe devolver la dirección IP coincidente desde el campo pcs resource config "ip=". Las rutas de propiedad deben coincidir con el campo pcs resource config "directory=". En algunos casos, cuando se observa un problema de inicio, el comando lcmap no devuelve los campos hostname, local o de rutas de propiedad; esto indica un problema.

Diagnóstico inicial:

Si los servicios de NetWorker no se inician, compruebe el estado del recurso de pcs para ver qué recurso presenta fallas:

pcs status

Ejemplo:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Si se observa una falla, se muestra un error general de falla. Los recursos fallidos se muestran como FALLIDOS.

FS (sistema de archivos): Si el sistema de archivos está en un estado fallido, consulte la sección que aparece a continuación sobre Fallas del sistema de archivos.
IP (IPaddr): Si el IPaddr está en un estado fallido, consulte la sección que aparece a continuación sobre Fallas de IPaddr.
NWS (servidor): Si el servidor de NetWorker se encuentra en un estado fallido, realice lo siguiente:

Revise daemon.raw del servidor de NetWorker para ver si hay mensajes de falla que aparezcan durante el inicio. El archivo /nsr_share/nsr/daemon.raw del servidor se encuentra en la ruta de almacenamiento compartido. El demonio del cliente de nodos físicos se encuentra en /nsr. NetWorker.local/logs/daemon.raw. Consulte el artículo de Dell NetWorker: Cómo utilizar nsr_render_log
Si el registro predeterminado no es suficiente, habilite la depuración de la siguiente manera:
1. Intente reiniciar el recurso "Server":

pcs resource cleanup nws

Utilice dbgcommand para habilitar la depuración en el proceso nsrd:

dbgcommand -n nsrd Debug=#

Configure un nivel de depuración utilizando los números 1 a 9. Monitoree daemon.raw para ver si hay mensajes adicionales que puedan dirigirse a un problema.

Revise /var/log/pcsd/pcsd.log para ver si hay errores.
Revise /var/log/pacemaker/pacemaker.log para ver si hay errores.
Revise el archivo /var/log/messages para ver si hay errores.

NOTA: Cuando se revisan los registros de pcsd, marcapasos y mensajes, busque los mensajes que se registraron durante el mismo período en que los servicios de NetWorker intentaron iniciarse. Revise si hay errores o fallas que coincidan con la falla de inicio del servicio.

Fallas del sistema de archivos:

Revise los recursos del marcapasos:

pcs resource

Revise la configuración de recursos del marcapasos para el recurso del sistema de archivos:

pcs resource fs

Ejemplo:

Tome nota de la ruta del dispositivo, la ruta del directorio y el fstype.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

Confirme si el dispositivo está montado en el FS:

df -h

Ejemplo:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

Confirme si el punto de montaje está configurado correctamente; la asociación del dispositivo con la ruta:

lsblk

Ejemplo:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

Confirme que el sistema de archivos utilizado por el dispositivo sea el correcto:

blkid

Ejemplo:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Si el recurso fs (filesystem) no se inicia. Esto indica un problema fuera de NetWorker. Se debe comunicarse con el administrador del sistema del clúster para revisar la configuración del sistema de archivos del clúster y confirmar que no se observen problemas con el almacenamiento compartido utilizado por el marcapasos. Revise los registros adicionales del sistema con respecto a cualquier falla en el sistema o sus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Fallas de IPaddr:

Revise los recursos del marcapasos:

pcs resource

Revise la configuración de recursos del marcapasos para el recurso del sistema de archivos:

pcs resource config ip

Ejemplo:

Tome nota de la dirección IP y la NIC.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

Confirme si la NIC está disponible en el sistema:

ifconfig -a

Ejemplo:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

La dirección IP que se muestra con ifconfig coincide con el nombre del nodo físico; Sin embargo, se puede acceder a la IP en clúster a través de esta NIC cuando el nodo está activo. Asegúrese de que ambos nodos estén configurados para utilizar los mismos nombres de NIC.

¿La dirección IP se resuelve con el nombre de host correcto (lógico) que utiliza el servidor de NetWorker?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Ejemplo:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

También se recomienda realizar los mismos pasos en relación con la dirección IP, el FQDN y el nombre corto del nodo físico. Consulte el artículo de Dell Solución de problemas de DNS y resolución de nombres.

¿Puede comunicarse con la dirección IP del clúster mediante ping?

ping -c 4 ip

Ejemplo:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

Si el recurso IP (IPaddr) no se inicia. Esto indica un problema fuera de NetWorker. Se debe comunicarse con el administrador del sistema y el administrador de red del clúster para revisar la configuración de red del clúster y confirmar que no se observen problemas. Revise los registros adicionales del sistema con respecto a cualquier falla en el sistema o sus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Otros comandos de PCS:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000218281

Article Type: How To

Last Modified: 06 May 2024

Version: 4

Check if your device is covered by Support Services.

NetWorker: Guía de solución de problemas para el problema de servicio de clúster de Red Hat

Instructions

Topología de clúster:

Diagnóstico inicial:

Fallas del sistema de archivos:

Fallas de IPaddr:

Otros comandos de PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

NetWorker: Guía de solución de problemas para el problema de servicio de clúster de Red Hat

Detailed Article

Instructions

Affected Products

Instructions

Topología de clúster:

Diagnóstico inicial:

Fallas del sistema de archivos:

Fallas de IPaddr:

Otros comandos de PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services