2020年4月に作成されたHPCおよびAIイノベーション ラボのMarioMarigos氏
ソリューション コンポーネント |
リリース時 |
テスト ベッド |
|
内部接続 |
Dell Networking S3048-ONギガビット イーサネット |
||
データ ストレージ サブシステム |
Dell EMC PowerVault ME4084 x 1~4 Dell EMC PowerVault ME484 x 1~4(ME4084あたり1) |
||
High Demandメタデータ ストレージ サブシステム(オプション) |
Dell EMC PowerVault ME4024 x 1~2(必要に応じてME4024 x 4、大規模構成のみ) |
||
RAID ストレージコントローラ |
12 Gbps SAS |
||
構成済みの容量 |
生:8064 TB(7334 TiBまたは7.16 PiB)フォーマット:最大6144 GB(5588 TiBまたは5.46 PiB) |
||
CPU |
ゲートウェイ |
インテルXeon Gold 6230 2.1G、20C/40T、10.4GT/秒、27.5Mキャッシュ、ターボ、HT(125W)DDR4-2933 x 2 |
なし |
高需要メタデータ |
2 x インテルXeon Gold 6136 @ 3.0 GHz、12コア |
||
ストレージ ノード |
2 x インテルXeon Gold 6136 @ 3.0 GHz、12コア |
||
管理ノード |
インテルXeon Gold 5220 2.2G、18C/36T、10.4GT/s、24.75Mキャッシュ、ターボ、HT(125W)DDR4-2666 x 2 |
インテルXeon Gold 5118 @ 2.30GHz x 2、12コア |
|
メモリー |
ゲートウェイ |
12x 16GiB 2933 MT/s RDIMM(192 GiB) |
なし |
高需要メタデータ |
24x 16GiB 2666 MT/s RDIMM(384 GiB) |
||
ストレージ ノード |
24x 16GiB 2666 MT/s RDIMM(384 GiB) |
||
管理ノード |
16 GB DIMM x 12、2666 MT/s(192GiB) |
12 x 8GiB 2666 MT/s RDIMM(96 GiB) |
|
オペレーティングシステム |
Red Hat Enterprise Linux 7.6 |
Red Hat Enterprise Linux 7.7 |
|
カーネル バージョン |
3.10.0-957.12.2.el7.x86_64 |
3.10.0-1062.9.1.el7.x86_64 |
|
PixStorソフトウェア |
5.1.0.0 |
5.1.1.4 |
|
Spectrum Scale(GPFS) |
5.0.3 |
5.0.4-2 |
|
ハイ パフォーマンス ネットワーク接続 |
Mellanox ConnectX-5デュアルポートInfiniBand EDR/100 GbE、および10 GbE |
Mellanox ConnectX-5 InfiniBand EDR |
|
ハイ パフォーマンス スイッチ |
Mellanox SB7800 x 2(HA – 冗長) |
Mellanox SB7700 x 1 |
|
OFEDのバージョン |
Mellanox OFED-4.6-1.0.1.0 |
Mellanox OFED-4.7-3.2.9 |
|
ローカル ディスク(OS & 分析/監視) |
管理ノードを除くすべてのサーバー OS用480GB SSD SAS3(RAID1 + HS)x 3 PERC H730P RAIDコントローラー 管理ノード OS用480GB SSD SAS3(RAID1 + HS)x 3 PERC H740P RAIDコントローラー |
管理ノードを除くすべてのサーバー OS用300GB 15K SAS3(RAID 1)x 2 PERC H330 RAIDコントローラー 管理ノード OS用300GB 15K SAS3(RAID 5)x 5 & PERC H740P RAIDコントローラー |
|
システム管理 |
iDRAC 9 Enterprise + DellEMC OpenManage |
iDRAC 9 Enterprise + DellEMC OpenManage |
クライアント ノードの数 |
16 |
クライアント ノード |
C6320 |
クライアント ノードあたりのプロセッサー数 |
2 x インテル(R) Xeon(R) Gold E5-2697v4 18コア @ 2.30GHz |
クライアント ノードあたりのメモリー |
16GiB 2400 MT/s RDIMM x 12 |
BIOS |
2.8.0 |
OSカーネル |
3.10.0-957.10.1 |
GPFSバージョン |
5.0.3 |
./iozone -i0 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
./iozone -i1 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b 128G
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b 128G
パフォーマンスの結果は、IOPSの合計数、ディレクトリーあたりのファイル数、スレッド数によって影響を受ける可能性があるため、ファイルの合計数を2 MiBファイル(2^21 = 2097152)、1024で修正されたディレクトリーあたりのファイル数、スレッド数の変更に応じて変更したディレクトリーの数を、表3に示すように修正しておくことが決定されました。mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F
スレッド数 |
スレッドあたりのディレクトリ数 |
ファイルの総数 |
1 |
2048 |
2,097,152 |
2 |
1024 |
2,097,152 |
4 |
512 |
2,097,152 |
8 |
256 |
2,097,152 |
16 |
128 |
2,097,152 |
32 |
64 |
2,097,152 |
64 |
32 |
2,097,152 |
128 |
16 |
2,097,152 |
256 |
8 |
2,097,152 |
512 |
4 |
2,097,152 |
1024 |
2 |
2,097,152 |
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/btl_openib_allow_ib lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F -w 4K -e 4K
図6: メタデータパフォーマンス - 小容量ファイル(4K)
システムは、統計操作と削除操作がそれぞれ8.2M op/sと400K op/sで256スレッドでピーク値に達した場合に非常に優れた結果を得ます。読み取り操作は最大44.8K op/sを達成し、Create操作は、両方とも512スレッドで68.1K op/sでピークを達成しました。統計と取り外しの操作は変動性が高くなりますが、ピーク値に達すると、パフォーマンスは統計の場合は300万ops、削除では28万ops未満に低下しません。作成と読み取りの変動が少なく、スレッドの数が増えるにつれて増え続けます。ご確認のように、容量拡張の追加ドライブは、メタデータのパフォーマンスにわずかな変化しか与えません。
これらの数値は単一のME4024を持つメタデータ モジュール向けであるため、追加のME4024アレイごとにパフォーマンスが向上しますが、各操作の直線的な増加を想定することはできません。このようなファイルのinode内にファイル全体が収まる場合を除き、ME4084s上のデータ ターゲットは4Kファイルの格納に使用され、パフォーマンスがある程度制限されます。inodeサイズは4KiBで、メタデータを保存する必要があるため、内部には3 KiB前後のファイルのみが収まり、それ以上のファイルはデータ ターゲットを使用します。
容量が拡張されたソリューションは、ランダム アクセスだけでなく、シーケンシャル パフォーマンスでもパフォーマンスを向上させることができました。分散モードはランダムアクセスとして動作し、より多くのディスクを使用することで改善が可能になるため、これは予想されていました。表4で概要を説明できるこのパフォーマンスは、空のファイル システムからほぼ満杯になるまで安定していることが期待されています。さらに、ストレージ ノード モジュールが追加されると、ソリューションの容量とパフォーマンスが直線的に拡張され、オプションの高需要メタデータ モジュールでも同様のパフォーマンスの向上が期待できます。このソリューションは、HPCのお客様に、多くの上位500のHPCクラスターで使用される非常に信頼性の高い並列ファイル システムを提供します。さらに、卓越した検索機能、高度なモニタリングと管理を提供し、オプションのゲートウェイを追加することで、NFS、SMBなどのユビキタス標準プロトコルを介して必要な数のクライアントにファイルを共有できます。
表4 ピーク時と持続的なパフォーマンス
|
ピーク時のパフォーマンス |
継続的なパフォーマンス |
||
書き込み |
読み取り |
書き込み |
読み取り |
|
Nファイルへの大規模なシーケンシャルNクライアント |
20.4 GB/秒 |
24.2 GB/秒 |
20.3 GB/秒 |
24 GB/秒 |
単一の共有ファイルへの大規模なシーケンシャルNクライアント |
19.3 GB/秒 |
24.8 GB/秒 |
19.3 GB/秒 |
23.8 GB/秒 |
ランダムな小さなブロック N個のクライアントからN個のファイルへ |
40KIOps |
25.6KIOps |
40.0KIOps |
19.3KIOps |
メタデータ 空のファイルの作成 |
169.4K IOps |
123.5K IOps |
||
メタデータ統計の空のファイル |
1,100万IOps |
320万IOps |
||
メタデータ 空のファイルの読み取り |
470万IOps |
240万IOps |
||
メタデータ 空のファイルの削除 |
170.6K IOps |
156.5K IOps |
||
メタデータ 4KiBファイルの作成 |
68.1K IOps |
68.1K IOps |
||
メタデータ統計4KiBファイル |
820万IOps |
300万IOps |
||
メタデータ 4KiBファイルの読み取り |
44.8K IOps |
44.8K IOps |
||
メタデータ 4KiBファイルの削除 |
40万IOps |
28万IOps |
このソリューションはCascade Lake CPUとより高速なRAMを使用してリリースすることを目的としているため、システムが最終的な構成になると、パフォーマンス スポットチェックが実行されます。また、少なくとも2つのME4024と4KiBファイルを使用して、オプションのHigh Demandメタデータ モジュールをテストして、データ ターゲットが関連する場合にメタデータのパフォーマンスがどのように拡張されるかをより的確に文書化します。さらに、ゲートウェイ ノードのパフォーマンスが測定され、新しいブログまたはホワイト ペーパーのスポット チェックから関連する結果とともに報告されます。さらに、より多くの機能を提供するために、より多くのソリューション コンポーネントをテストおよびリリースする予定です。