NetWorker: Guia de solução de problemas para o problema de serviço em cluster do Red Hat

Summary: Este artigo fornece uma visão geral de como abordar problemas de inicialização de serviço do NetWorker para servidores NetWorker implementados em clusters do Red Hat Pacemaker (PCs). Este artigo é adequado aos administradores de backup do NetWorker e ao suporte do NetWorker para auxiliar na solução desses problemas. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Os servidores do NetWorker podem ser implementados em uma configuração de failover de cluster nos nós do Red Hat usando serviços pacemaker (pcs). Nesse tipo de configuração, o NetWorker é instalado em dois ou mais nós e os bancos de dados do servidor do NetWorker residem em um local de armazenamento compartilhado que é transmitido entre os nós, dependendo de qual nó é o nó "ativo" no marca-passos. O servidor do NetWorker usa um nome de cluster compartilhado e um endereço IP para que sua nomenclatura e endereçamento seja consistente, independentemente de qual nó hospeda os serviços. Consulte o Guia de Integração de Cluster do NetWorker para obter detalhes sobre como configurar o NetWorker em um cluster. Este guia está disponível na página de produtos de suporte da Dell.

Topologia de cluster:

Este artigo usa um cluster de exemplo com a seguinte configuração:

Topologia de cluster do NetWorker

Nome de host	Endereço IP	Função
lnx-node1.amer.lan	192.168.9.108	Nó físico 1
lnx-node2.amer.lan	192.168.9.109	Nó físico 2
lnx-nwcluster.amer.lan	192.168.9.110	Nome lógico usado pelo NetWorker

O file system nos nós gerencia o NetWorker usando links simbólicos.

Nó ativo:

Um nó ativo em que o servidor do NetWorker é iniciado vincula simbolicamente /nsr ao local de armazenamento compartilhado:

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nó passivo:

Um nó "passivo" vincula simbolicamente /nsr a /nsr. NetWorker.local:

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Quando um nó está em um estado passivo, o software nsrexecd (client do NetWorker) está sempre em execução usando /nsr. NetWorker.local. Cada nó físico tem seu próprio recurso de client usando o nome resolvível dns do nó físico e o endereço IP. O servidor do NetWorker só é executado usando o armazenamento compartilhado (/nsr_share) e usa o endereço IP compartilhado e o hostname. Isso só pode estar ativo em um nó por vez.

Os seguintes comandos pacemaker (pcs) são usados para obter uma visão geral da configuração e do status do pacemaker:

Configuração em cluster:

pcs status

Exemplo:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Na saída acima, podemos determinar quantos nós estão no cluster e se algum deles está off-line ou em status de espera. A saída também mostra qual nó está hospedando o file system compartilhado (fs), o endereço IP do recurso do cluster (ip) e os serviços do NetWorker (nws). Os nomes de recursos usados aqui são os valores padrão usados no Guia de Integração de Cluster do NetWorker; no entanto, é possível que nomes diferentes sejam usados. Se você estiver usando nomes diferentes, anote os nomes dos recursos e substitua conforme necessário ao seguir as instruções neste artigo.

Configuração de recursos do Pacemaker:

pcs resource config

Exemplo:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

O comando acima detalha a configuração de recursos de cada PCs. Aspectos importantes a serem observados durante a visão geral inicial:

Recurso do FS "device=": Esse é o dispositivo usado como ponto de montagem para o armazenamento compartilhado no file system do nó. Esse dispositivo deve ser o mesmo em cada nó. Isso será discutido posteriormente neste artigo da KB.
Recurso do FS "directory=": Este é o diretório que o armazenamento compartilhado do NetWorker usa. O diretório deve ser associado como ponto de montagem para o campo "device=". Isso será discutido posteriormente neste artigo da KB.
Recurso IP "ip=": Esse é o endereço IP associado ao hostname lógico (compartilhado) usado pelo servidor do NetWorker. Esse endereço IP é hospedado no nó ativo.

Visibilidade do pacemaker do endereço e do armazenamento compartilhados:

lcmap

Exemplo:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

Nota: O hostname deve retornar o endereço IP correspondente do campo pcs resource config "ip=". Os caminhos de propriedade devem corresponder ao campo pcs resource config "directory=". Em alguns casos, quando um problema de inicialização é observado, o comando lcmap não retorna os campos hostname, local ou owned paths; isso é indicativo de um problema.

Diagnóstico inicial:

Se os serviços do NetWorker não iniciarem, verifique o status do recurso pcs para ver qual recurso está falhando:

pcs status

Exemplo:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Se uma falha for observada, será exibido um erro geral de falha. Os recursos com falha são exibidos como FAILED.

FS (file system): Se o file system estiver em um estado de falha, consulte a seção abaixo sobre Falhas do file system.
IP (IPaddr): Se o IPaddr estiver em um estado de falha, consulte a seção abaixo sobre falhas de IPaddr.
NWS (servidor): Se o servidor do NetWorker estiver em estado de falha, faça o seguinte:

Analise o daemon.raw do servidor do NetWorker para ver se há mensagens de falha que aparecem durante a inicialização. O /nsr_share/nsr/daemon.raw do servidor está localizado no caminho de armazenamento compartilhado. O daemon do client de nós físicos está no /nsr. NetWorker.local/logs/daemon.raw. Consulte o artigo da Dell NetWorker: Como usar nsr_render_log
Se o registro padrão não for suficiente, habilite a depuração do seguinte modo:
1. Tente reiniciar o recurso "Server":

pcs resource cleanup nws

Use o dbgcommand para habilitar a depuração no processo nsrd:

dbgcommand -n nsrd Debug=#

Defina um nível de depuração usando os números 1 a 9. Monitore o daemon.raw para quaisquer mensagens adicionais que possam direcionar para um problema.

Verifique se há erros em /var/log/pcsd/pcsd.log.
Verifique se há erros no /var/log/pacemaker/pacemaker.log.
Analise o arquivo /var/log/messages em caso de erros.

Nota: Ao analisar os registros de pcsd, pacemaker e mensagens, procure mensagens que foram registradas durante o mesmo período em que os serviços do NetWorker tentavam iniciar. Verifique se há erros/falhas que coincidem com a falha de inicialização do serviço.

Falhas do file system:

Analise os recursos de marca-passos:

pcs resource

Analise a configuração de recursos do pacemaker para o recurso file system:

pcs resource fs

Exemplo:

Anote o caminho do dispositivo, o caminho do diretório e o fstype.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

Confirme se o dispositivo está montado no FS:

df -h

Exemplo:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

Confirme se o ponto de montagem está configurado corretamente; associando o dispositivo ao caminho:

lsblk

Exemplo:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

Confirme se o file system usado pelo dispositivo está correto:

blkid

Exemplo:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Se o recurso fs (file system) estiver falhando ao iniciar. Isso é indicativo de um problema fora do NetWorker. O administrador do sistema do cluster deve ser envolvido para analisar a configuração do file system do cluster e confirmar se nenhum problema é observado com o armazenamento compartilhado usado pelo pacemaker. Analise os registros adicionais do sistema em relação a quaisquer falhas com o sistema ou seus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Falhas de IPaddr:

Analise os recursos de marca-passos:

pcs resource

Analise a configuração de recursos do pacemaker para o recurso file system:

pcs resource config ip

Exemplo:

Anote o endereço IP e a NIC.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

Confirme se a NIC está disponível no sistema:

ifconfig -a

Exemplo:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

O endereço IP mostrado com ifconfig corresponde ao nome do nó físico; no entanto, o IP em cluster pode ser acessado por meio dessa NIC quando o nó está ativo. Certifique-se de que ambos os nós estejam configurados para usar os mesmos nomes de NIC.

O endereço IP resolve o hostname correto (lógico) usado pelo servidor do NetWorker?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Exemplo:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Também é recomendável executar as mesmas etapas em relação ao endereço IP, FQDN e nome curto do nó físico. Consulte o artigo da Dell Solução de problemas de DNS e resolução de nomes.

Você consegue acessar o endereço IP do cluster usando ping?

ping -c 4 ip

Exemplo:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

Se o recurso IP (IPaddr) não estiver iniciando. Isso é indicativo de um problema fora do NetWorker. O administrador do sistema do cluster e o administrador de rede devem ser envolvidos para analisar a configuração de rede do cluster e confirmar se nenhum problema foi observado. Analise os registros adicionais do sistema em relação a quaisquer falhas com o sistema ou seus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Outros comandos do PCS:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series

Article Number: 000218281

Article Type: How To

Last Modified: 06 May 2024

Version: 4

Check if your device is covered by Support Services.

NetWorker: Guia de solução de problemas para o problema de serviço em cluster do Red Hat

Instructions

Topologia de cluster:

Diagnóstico inicial:

Falhas do file system:

Falhas de IPaddr:

Outros comandos do PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

NetWorker: Guia de solução de problemas para o problema de serviço em cluster do Red Hat

Detailed Article

Instructions

Affected Products

Instructions

Topologia de cluster:

Diagnóstico inicial:

Falhas do file system:

Falhas de IPaddr:

Outros comandos do PCS:

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services