Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

NetWorker:Red Hat 叢集服務問題的故障排除指南

Summary: 本文概述如何因應部署在 Red Hat pacemaker (pcs) 叢集上的 NetWorker 伺服器的 NetWorker 服務啟動問題。本文適合 NetWorker 備份系統管理員和 NetWorker 支援,以協助排除這些問題。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker 伺服器可使用 pacemaker (pcs) 服務,部署在 Red Hat 節點上的叢集容錯移轉組態中。在此組態類型中,NetWorker 會安裝在兩個或多個節點上,而 NetWorker 伺服器資料庫則位於節點間傳遞的共用儲存位置,視起搏器中的「作用中」節點而定。NetWorker 伺服器使用共用的叢集名稱和 IP 位址,因此無論代管服務的節點為何,其命名和位址皆一致。如需如何在叢集中設定 NetWorker 的詳細資料,請參閱《NetWorker 叢集整合指南》。本指南可在Dell 支援產品頁面取得。 


叢集拓撲:

本文使用具有下列組態的範例叢集:

NetWorker 叢集拓撲
主機名稱
IP 位址
功能
lnx-node1.amer.lan
192.168.9.108
實體節點 1
lnx-node2.amer.lan
192.168.9.109
實體節點 2
lnx-nwcluster.amer.lan
192.168.9.110
NetWorker 使用的邏輯名稱

節點上的檔案系統會使用符號連結來管理 NetWorker。

作用中節點:
啟動 NetWorker 伺服器的使用中節點,會以符號方式將 /nsr 連結到共用儲存位置:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share
被動節點:
「被動式」節點會以符號方式將 /nsr 連結至 /nsr。NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share
當節點處於被動狀態時,nsrexecd (NetWorker 用戶端) 軟體一律使用 /nsr 執行。NetWorker.local。每個實體節點都有自己的用戶端資源,使用實體節點的 DNS 可解析名稱和 IP 位址。NetWorker 伺服器僅使用共用儲存裝置 (/nsr_share) 執行,並使用共用 IP 位址和主機名稱。這一次只能在一個節點上啟用。

下列起搏器 (pcs) 命令可用來概覽起子組態和狀態:
  • 叢集組態:
pcs status
範例:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

從上述輸出中,我們可以判斷叢集中有多少個節點,以及是否有任何節點處於離線或待命狀態。輸出也會顯示代管共用檔案系統 (fs)、叢集資源 IP 位址 (ip) 和 NetWorker 服務 (nws) 的哪個節點。此處使用的資源名稱是 NetWorker 叢集整合指南中使用的預設值;但是,可能會使用不同的名稱。如果您使用的是不同的名稱,請記下資源名稱,並在遵循本文指示時視需要進行更換。
  • Pacemaker 資源組態:
pcs resource config

範例:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10
 
上述命令詳細說明每個 pcs 資源組態。在初始概觀中需要注意的重要事項:
  • FS 資源「device=」:這是作為節點檔案系統上共用儲存裝置的掛接點所使用的裝置。每個節點上的裝置必須相同。本知識庫文章稍後將討論此問題。
  • FS 資源「directory=」:這是共用 NetWorker 儲存裝置使用的目錄。目錄應與「device=」欄位的掛接點相關聯。本知識庫文章稍後將討論此問題。
  • IP 資源「ip=」:這是與 NetWorker 伺服器使用的邏輯 (共用) 主機名稱相關的 IP 位址。此 IP 位址託管于使用中的節點。
  • 共用位址和儲存裝置的 Pacemaker 可見度:
lcmap

範例:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

 

注意:主機名稱應傳回與 pcs 資源組態 「ip=」欄位相符的 IP 位址。擁有的路徑應與 pcs 資源組態 「directory=」欄位相符。在某些情況下,當發現啟動問題時, lcmap 命令不會傳回主機名稱、本機或擁有的路徑欄位;這表示發生問題。
 

初步診斷:

如果 NetWorker 服務無法開始檢查 pcs 資源狀態,以查看哪些資源失敗:

pcs status
範例: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
 
如果發現故障,則傳回一般故障錯誤。失敗的資源顯示為失敗。 
  • FS (檔案系統):如果檔案系統處於故障狀態,請參閱以下「 檔案系統故障」一節。
  • IP (IPaddr):如果 IPaddr 處於故障狀態,請參閱下方 IPaddr 故障的章節。
  • NWS (伺服器):如果 NetWorker 伺服器處於故障狀態,請執行下列步驟:
  1. 檢閱 NetWorker 伺服器的 daemon.raw,瞭解在啟動期間出現的任何故障訊息。伺服器的 /nsr_share/nsr/daemon.raw 位於共用儲存路徑中。實體節點用戶端精靈位於 /nsr 中。NetWorker.local/logs/daemon.raw。請參閱 Dell 文章NetWorker:如何使用nsr_render_log
  2. 如果預設記錄不足,請透過下列方式啟用偵錯:
    1. 嘗試重新開機「伺服器」資源: 
pcs resource cleanup nws
  1. 使用 dbgcommand 在 nsrd 程式上啟用偵錯:
dbgcommand -n nsrd Debug=#
使用數位 1 至 9 設定偵錯層級。監視 daemon.raw 是否有任何可能導向問題的其他訊息。
  1. 檢閱 /var/log/pcsd/pcsd.log 是否有任何錯誤。
  2. 檢閱 /var/log/pacemaker/pacemaker.log 是否有任何錯誤。
  3. 檢閱 /var/log/messages 檔案是否有任何錯誤。
注意:檢閱 pcsd、pacemaker 和訊息記錄時,尋找在 NetWorker 服務嘗試啟動的同一時間段內記錄的訊息。檢閱與服務啟動失敗相符的任何錯誤/故障。
 

檔案系統故障:

  1. 檢閱起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource fs
範例:
 
請記下裝置路徑、目錄路徑和 fstype。
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. 確認裝置是否已安裝在 FS 上:
df -h

範例:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. 確認掛接點是否正確設定;將裝置與路徑關聯:
lsblk

範例:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. 確認裝置使用的檔案系統正確無誤:
blkid
範例:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

如果 fs (檔案系統) 資源無法啟動。這表示 NetWorker 以外的問題。叢集的系統管理員應與系統管理員接洽,以檢閱叢集的檔案系統配置,並確認在起搏器使用的共用儲存裝置上未發現任何問題。檢閱有關系統或其裝置任何故障的其他系統記錄:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


IPaddr 故障:

  1. 檢閱起搏器資源:
pcs resource
  1. 檢閱檔案系統資源的起搏器資源組態:
pcs resource config ip
範例:
 
記下 IP 位址和 NIC。
 
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. 確認系統上是否有 NIC 可用:
ifconfig -a
範例: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163 mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73 mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
 
以 ifconfig 顯示的 IP 位址與實體節點名稱相符;但是,當節點作用中時,可透過此 NIC 連線叢集 IP。請確定兩個節點都已設定為使用相同的 NIC 名稱。
  1. IP 位址是否可以解析為 NetWorker 伺服器所使用的正確 (邏輯) 主機名稱?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
範例:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0


另建議針對實體節點的 IP 位址、FQDN 和短名稱執行相同的步驟。請參閱 Dell 文章,對 DNS 和名稱解析問題進行故障診斷。

  1. 您可以使用 ping 連線到叢集 IP 位址嗎?
ping -c 4 ip
範例:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
如果 IP (IPaddr) 資源無法啟動。這表示 NetWorker 以外的問題。叢集的系統管理員和網路系統管理員應聯絡,以檢閱叢集的網路組態,並確認未發現任何問題。檢閱有關系統或其裝置任何故障的其他系統記錄:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages


其他 PCS 命令:

Pacemaker or PCS version: pcs --version 

Enable resource: pcs resource enable resource_name 

Disable resource: pcs resource disable resource_name  

Cleanup (restart) resource: pcs resource cleanup resource_name 

Stop cluster: pcs stop cluster --force 

Start cluster: pcs start cluster --all 

Put the node in standby: pcs node standby node_name 

Take node out of standby: pcs node unstandby node_name

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 06 May 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.