NetWorker 故障診斷指南:程序當機和核心傾印
影片:Dell NetWorker 故障診斷程序當機和核心傾印的全方位指南
在 YouTube 上觀看
在您的環境中確認以下每個故障診斷步驟。每個步驟都提供說明或文檔連結,以消除可能的原因並根據需要採取糾正措施。這些步驟為最適當的順序,以隔離問題並找出適當的解決方法。請勿跳過步驟。
第 1 步:收集資訊 - 問題描述
要生成完整的問題描述,請解決以下問題:
- 在什麼情況下進程崩潰。此行為是否一致?
- 以前工作得更好。
- 發生時間和觀察到的行為趨勢
- 問題是否僅在備份環境或備份或特定類型的備份組負載過重時發生。
- 問題首次出現的時間。那發生了什麼變化呢?
- 問題的範圍是什麼(所有用戶端/某些用戶端,所有備份目標或某些)
- 到目前為止嘗試修復了什麼以及從中得出了什麼結論。
步驟 2:收集資訊 - 環境
- 哪個 NetWorker 進程沒有回應,以及在哪台機器上(伺服器、儲存節點或用戶端)。
- NetWorker 伺服器版本和平臺
- 備份資料區
的大小和性質概述 - 這些備份的目標媒體
步驟 3:支援能力
使用線上 NetWorker 相容性指南,檢查是否支援所有元件 (NetWorker 伺服器、檔案系統版本、代理、儲存節點、用戶端、目標)。
- 檢查是否存在導致進程崩潰(磁碟故障、磁碟已滿、網路錯誤等)的基礎操作系統或硬體缺陷。
步驟 4:最佳實務
NetWorker 效能最佳化規劃指南包含幾個建議的軟體和硬體需求和建議,為了擁有經過最佳調整的 NetWorker 環境,必須實作這些需求和建議。應對此進行審查,以確保遵循此數據區的最佳做法。如果進程無回應是在負載最重的時候發生的,則相關。
步驟 5:元件隔離
我們如何尋找程序無回應問題的根本原因,取決於步驟 1 中定義的行為。如果觸發器未知,則可以進行測試以嘗試確定觸發崩潰的原因:
- 在高負載
下監視系統性能 - 檢查崩潰時的操作系統日誌檔,以了解行為
的通用性 - 閱讀 NetWorker 計劃計劃以確定特定 NetWorker 計劃活動的發生時間之間是否存在關聯。
瞭解在這台機器上執行哪些非 NetWorker 作業可能會影響其行為,以及其排程是否與當機時間相關。
- 如果崩潰持續發生,請更改一些參數以嘗試縮小原因範圍。 例如,備份至不同的目標媒體,或從相同的 NetWorker 用戶端備份不同類型的資料
步驟 6:解析度
核心轉儲是一個特殊的檔,它表示進程在特定時間的工作記憶體的轉儲,通常是在程式異常終止時。 核心轉儲檔可用於診斷進程無回應的原因,方法是分析崩潰時進程的哪些功能正在運行以及正在訪問哪些數據。
大部分作業系統不會自動產生核心傾印檔案。 必須修改作業系統參數,以便在進程崩潰時生成核心轉儲檔。 此修改必須在崩潰之前完成。
1) 檢查 /nsr/cores 目錄,以瞭解 unix 或 linux 中 NetWorker 程序最近的核心傾印,或檢查 Windows 登錄中定義的損毀目錄 (請參閱步驟 2)。
2) 如果沒有,請檢查作業系統是否設定為在程序當機時產生核心傾印檔案。 如需完整的詳細資料,請參閱作業系統說明文件,但簡而言之,這可能涉及變更 Linux 或 Unix 中的 ulimit -c 和 -f 值,以及在 Windows 中變更登錄檔。
針對 Windows 2008R2:
- 使用 http://msdn.microsoft.com/en-us/library/bb787181(VS.85).aspx 中提供的新金鑰更新註冊表。
使用建議的值,轉儲檔案會在 C:\Users\Administrator\AppData\Local\CrashDumps
中建立 - 啟用完整故障轉儲。
3)核心檔可以在主機本身上檢查,也可以打包在另一台機器上進行分析。 有關如何打包這些核心檔的詳細資訊,請參閱:
UNIX 和 Linux 核心檔打包:
489272:如何收集核心/故障傾印資訊和相關記錄
4) 分析可用資料:
- 作業系統記錄檔
- 來自 NetWorker 伺服器和相關儲存節點的 NetWorker 精靈記錄檔。
核心檔案或當機檔案
:核心檔案的詳細分析需要 NetWorker 內部操作的進階知識,並應由 EMC NetWorker 支援人員完成。 但是,您可以初步讀取核心檔案,以將核心檔案的內容與已知問題進行比較。
Linux 和 HP-UX
gdb [完整處理路徑] [核心檔]
(gdb) 其中
AIX
dbx [完整進程路徑] [核心檔]
(dbx) 其中
Solaris
pstack [ 核心檔 ]
dbx [完整進程路徑] [核心檔]
(dbx) 其中
Windows
- 啟動 windbg windows 調試程式
- 單擊檔並在 windbg 中打開轉儲檔。
- 在底部命令視窗中鍵入分析 --v 以檢索完整資訊。
5) 根據上述關於系統行為的分析和知識,您可以將事件與最新版本 NetWorker 版本資訊中詳述的已知問題清單進行比較。
步驟 7:進階除錯(如果需要)
如果您懷疑造成沒有回應程序的 NetWorker 軟體故障,則必須封裝當機檔案 (請參閱步驟 3),並向 Dell Technologies NetWorker 支援提供觀察到行為的完整說明,以取得問題的詳細分析。