由 HPC 與 AI 創新實驗室的 Mario 自格列格索于 2020 年 4 月撰寫
解決方案元件 |
發行時 |
測試台 |
|
內部連線能力 |
Dell Networking S3048-ON Gigabit 乙太網路 |
||
資料儲存子系統 |
1 個至 4 個 Dell EMC PowerVault ME4084 1 個至 4 個 Dell EMC PowerVault ME484 (每個 ME4084 一個) |
||
選配的高需求中繼資料儲存子系統 |
1 個至 2 個 Dell EMC PowerVault ME4024 (4 個 ME4024 ,僅限大型組態) |
||
RAID 儲存控制器 |
12 Gbps SAS |
||
已設定的容量 |
原始:8064 TB (7334 TiB 或 7.16 PiB) 格式化至 6144 GB (5588 TiB 或 5.46 PiB) |
||
處理器 |
閘道 |
2 個 Intel Xeon 黃金級 6230 2.1G、20C/40T、10.4 GT/秒、27.5 M 快取記憶體、渦輪加速、HT (125 W) DDR4-2933 |
N/A |
高需求中繼資料 |
2 個 Intel Xeon 黃金級 6136 (3.0 GHz),12 個核心 |
||
儲存節點 |
2 個 Intel Xeon 黃金級 6136 (3.0 GHz),12 個核心 |
||
管理節點 |
2 個 Intel Xeon 黃金級 5220 2.2G、18C/36T、10.4 GT/秒、24.75 M 快取記憶體、渦輪加速、HT (125 W) DDR4-2666 |
2 個 Intel Xeon 黃金級 5118 (2.30 GHz),12 個核心 |
|
記憶體 |
閘道 |
12 條 16GiB 2933 MT/秒 RDIMM (192 GiB) |
N/A |
高需求中繼資料 |
24 條 16GiB 2666 MT/秒 RDIMM (384 GiB) |
||
儲存節點 |
24 條 16GiB 2666 MT/秒 RDIMM (384 GiB) |
||
管理節點 |
12 條 16 GB DIMM、2666 MT/秒 (192GiB) |
12 條 8GiB 2666 MT/秒 RDIMM (96 GiB) |
|
作業系統 |
Red Hat Enterprise Linux 7.6 |
Red Hat Enterprise Linux 7.7 |
|
核心版本 |
3.10.0-957.12.2.el7.x86_64 |
3.10.0-1062.9.1.el7.x86_64 |
|
PixStor 軟體 |
5.1.0.0 |
5.1.1.4 |
|
頻譜擴充 (GPFS) |
5.0.3 |
5.0.4-2 |
|
高效能網路連線能力 |
Mellanox ConnectX-5 雙埠 InfiniBand EDR/100 GbE 和 10 GbE |
Mellanox ConnectX-5 InfiniBand EDR |
|
高效能交換器 |
2 個 Mellanox SB7800 (HA – 備援) |
1 個 Mellanox SB7700 |
|
OFED 版本 |
Mellanox OFED-4.6-1.0.1.0 |
Mellanox OFED-4.7-3.2.9 |
|
本機磁片 (OS 與分析/監控) |
管理節點以外的所有伺服器 3 個 480GB SSD SAS3 (RAID1 + HS),適用于作業系統 PERC H730P RAID 控制器 管理節點 3 個 480GB SSD SAS3 (RAID1 + HS),適用于作業系統 PERC H740P RAID 控制器 |
管理節點以外的所有伺服器 2 個 300GB 15K SAS3 (RAID 1),適用于作業系統 PERC H330 RAID 控制器 管理節點 5 個 300GB 15K SAS3 (RAID 5),適用于作業系統與 PERC H740P RAID 控制器 |
|
系統管理 |
iDRAC 9 Enterprise + DellEMC OpenManage |
iDRAC 9 Enterprise + DellEMC OpenManage |
用戶端節點數目 |
16 |
用戶端節點 |
C6320 |
每個用戶端節點的處理器數 |
2 個 Intel(R) Xeon(R) 黃金級 E5-2697v4 18 核心 @2.30 GHz |
每個用戶端節點的記憶體 |
12 條 16GiB 2400 MT/秒 RDIMM |
BIOS |
2.8.0 |
作業系統核心 |
3.10.0-957.10.1 |
GPFS 版本 |
5.0.3 |
./i}one -i0 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
./i濕松 -i1 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b 128G
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/1ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b 128G
由於效能結果可能會受到 IOP 總數、每個目錄的檔案數量和執行緒數目的影響,因此決定將檔案總數固定為 2 個 MiB 檔案 (2^21 = 2097152)、每個目錄修正為 1024 的檔案數量,以及目錄數量,會隨著表 3 所示的執行緒數量而有所變更。mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1 /perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F
執行緒數目 |
每個執行緒的目錄數目 |
檔案總數 |
1 |
2048 |
2,097,152 |
2 |
1024 |
2,097,152 |
4 |
512 |
2,097,152 |
8 |
256 |
2,097,152 |
16 |
128 |
2,097,152 |
32 |
64 |
2,097,152 |
64 |
32 |
2,097,152 |
128 |
16 |
2,097,152 |
256 |
8 |
2,097,152 |
512 |
4 |
2,097,152 |
1024 |
2 |
2,097,152 |
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F -w 4K -e 4K
圖 6: 中繼資料效能 - 小型檔案 (4K)
系統在 Stat 和 Removal 作業中取得非常良好的結果,分別以 8.2M 作業/秒和 400K 作業/秒達到 256 個執行緒的峰值值。讀取作業達到最多 44.8K 營運量,並以 512 個執行緒的 68.1K 作業/秒達到尖峰。Stat and Removal 作業有更多變化性,但一旦達到峰值值,統計資料的效能不會低於 3M 的作業/秒,以及 280K 的移除作業/ 秒。建立和讀取的差異性較低,而且會隨著執行緒數目增加而持續增加。如上所見,容量擴充的額外磁片磁碟機僅提供中繼資料效能的微量變更。
由於這些數位適用于配備單一 ME4024 的中繼資料模組,因此每個額外的 ME4024 陣列的效能會提高,但不能只假設每個作業的線性增加。除非整個檔案適合這類檔案的 Inode 內部,否則 ME4084s 上的資料目標將用於儲存 4K 檔案,將效能限制在一定程度上。由於 inode 大小為 4KiB,但仍需要儲存中繼資料,因此只有 3 KiB 左右的檔案可裝入內部,且任何大於該檔案的檔案會使用資料目標。
擴充容量的解決方案不僅能提高隨機存取的效能,更能提高效能,甚至還能提高順序效能。由於分散模式的行為是隨機存取,而且擁有更多磁片,因此預期會有所改善。此效能可概觀于表 4,預期會從閒置的檔案系統穩定到即將滿為止。此外,隨著新增更多儲存節點模組,解決方案的容量和效能也會線性擴充,而選用的高需求中繼資料模組也預期也會產生類似的效能提升。此解決方案可為 HPC 客戶提供許多前 500 大 HPC 叢集所使用的非常可靠的平行檔案系統。此外,還提供卓越的搜尋功能、進階的監控和管理功能,以及新增選用閘道,可視需要透過無所不在的標準通訊協定 (例如 NFS、SMB 和其他通訊協定) 共用檔案。
表 4 尖峰和持續效能
|
尖峰效能 |
持續效能 |
||
寫 |
讀取 |
寫 |
讀取 |
|
大型連續 N 用戶端至 N 檔案 |
20.4 GB/秒 |
24.2 GB/秒 |
20.3 GB/秒 |
24 GB/秒 |
大型順序 N 用戶端至單一共用檔案 |
19.3 GB/秒 |
24.8 GB/秒 |
19.3 GB/秒 |
23.8 GB/秒 |
隨機小型區塊 N 用戶端至 N 檔案 |
40KIOps |
25.6KIOps |
40.0KIOps |
19.3KIOps |
中繼資料建立空白檔案 |
169.4K IOps |
123.5K IOps |
||
中繼資料狀態空白檔案 |
11M IOps |
320 萬次 IOps |
||
中繼資料讀取空檔案 |
470 萬次 IOps |
240 萬次 IOps |
||
中繼資料移除空白檔案 |
170.6K IOps |
156.5K IOps |
||
中繼資料建立 4KiB 檔案 |
68.1K IOps |
68.1K IOps |
||
中繼資料 Stat 4KiB 檔案 |
820 萬次 IOps |
3M IOps |
||
中繼資料讀取 4KiB 檔案 |
44.8K IOps |
44.8K IOps |
||
中繼資料移除 4KiB 檔案 |
40 萬次 IOps |
280K IOps |
由於解決方案可搭配 Cascade Lake CPU 和更快速的 RAM 一起發佈,因此一旦系統擁有最終組態,將會進行一些效能現場檢查。測試選配的高需求中繼資料模組,其中至少有 2 個 ME4024s 和 4KiB 檔案,以便更清楚記錄資料目標涉及時中繼資料效能的擴充方式。此外,閘道節點的效能將會在新的部落格或白皮書中,與任何相關的檢查結果一併測量和報告。最後,計畫使用更多解決方案元件進行測試和發佈,以提供更多功能。