C4140構成MでのHPCアプリケーションのパフォーマンス

Resumen: 新しい「構成M」ソリューションを追加したDell EMC PowerEdge C4140の詳細について説明します。

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Consulte estos recursos

Síntomas

この記事は、2019年1月にDell EMC HPCおよびAI Innovation LabのFrank Han、Rengan Xu、およびQuy Taによって作成されました。

Resolución

要約

最近、Dell EMC PowerEdge C4140に新しい「構成M」ソリューションが追加されました。この最新オプションがC4140ファミリーに加わったことをうけ、この記事では、HPL、GROMACS、NAMDなど、さまざまなHPCアプリケーションについて、構成Mと構成Kのパフォーマンスを評価した結果について説明します。

概要

PowerEdge C4140は、2ソケット、1Uのラックサーバーです。これには、インテルSkylakeプロセッサー、最大24のDIMMスロット、4枚のダブル幅NVIDIA Volta GPUカードのサポートが含まれています。C4140サーバーファミリーには、NVLINKをサポートする構成Kと構成Mの2つがあります。図1に、両方のトポロジーの比較を示します。これら2つの構成の主な相違点を次に示します。

より大きなPCIe帯域幅：構成Kでは、CPUが1つのPCIeリンクのみによって4台のGPUに接続されています。一方、構成Mでは、各GPUは専用のPCIeリンクを使用してCPUに直接接続されています。そのため、4台のGPUを搭載した2つのCPUの間に合計4つのPCIeリンクがあり、構成Mではより大きなPCIe帯域幅を実現します。
より低いレイテンシー：構成Mでは、CPUとGPUの間にPCIeスイッチはありません。直接接続では、CPUとGPU間のデータ転送に使用されるホップ数が減少するため、構成Mではラウンドトリップレイテンシーがより低くなります。

このブログでは、これら2つの構成におけるHPCアプリケーションのパフォーマンスについて説明します。V100-SXM2 16G GPUを使用してHPL、GROMACS、およびNAMDのベンチマークを行いました。表1に、ハードウェアとソフトウェアの詳細を示します。
SLN315976_en_US__2table

p2pBandwidthLatencyTest

SLN315976_en_US__3latency
図2：C4140構成KおよびMでのP2Pが無効な場合のカード間レイテンシー

P2pBandwidthLatencyTestは、CUDA SDKに含まれるマイクロベンチマークです。これは、GPUDirect™ピアツーピアが有効および無効な場合のカード間レイテンシーと帯域幅を測定します。このテストで重要なのは、このプログラムが同時に帯域幅を測定しないため、レイテンシーの部分です。アプリケーションで使用可能な実際の帯域幅については、以下のHPLセッションを参照してください。図2に示されている数字は、単一方向カード間レイテンシーの100回の平均（マイクロ秒単位）です。コードが1枚のカードから別のカードに1バイトを送信するたびに、このチャートではP2Pが無効な場合の数字が選ばれます。これは、P2Pが有効になっている場合、代わりにNVLINKを介してデータが転送されるためです。構成MのPCIeレイテンシーは、PCIeトポロジーが異なるため、構成Kよりも1.368 us低くなります。

High Performance Linpack（HPL）

（a）パフォーマンス
SLN315976_en_US__52(14)

（b）V100 GPUごとの平均PCIe帯域幅
SLN315976_en_US__63(12)

（c）1回のHPL実行時の電力消費量

図3（a）は、1、2、4、8台のV100-SXM2 GPU搭載C4140プラットフォームでのHPLパフォーマンスを示します。1～4台のGPUの結果は1台のC4140から得られたもので、8台のGPUパフォーマンスの結果は2台のサーバーにまたがります。このテストでは、使用されたHPLバージョンはNVIDIAによって提供されており、最近リリースされたCUDA 10とOpenMPIを使用してコンパイルされています。HPLの結果から次の点が分かります。

1）シングルノード。テストした4台のGPUすべてで、構成Mは構成Kよりも最大16%速いことが分かります。HPLアプリケーションは、コンピューティングを開始する前に、すべてのカードが同時にデータを転送するときに使用可能なデバイスからホスト（D2H）およびホストからデバイス（H2D）のPCIe帯域幅をGPUカードごとに測定します。この情報は、HPLがN*NマトリクスをすべてのGPUメモリーに同時にコピーするときに、各カードの実際のPCIe帯域幅についての役立つ洞察を提供します。図3（b）に示すように、構成MのD2HとH2Dの両方の数の方が非常に高く、PCIe x16の理論上のスループットに達しています。これは、構成Mの各GPUにCPUへの専用PCIe x16リンクがあるため、ハードウェアトポロジーと一致します。構成Kでは、4台すべてのV100が、1つのPCIe x16リンクをPLX PCIeスイッチを介して共有する必要があるため、それぞれが使用できるのは2.5GB/秒だけです。帯域幅の差があるため、構成Mでは、4つの16GB N*Nマトリクスを各GPUのグローバルメモリーにコピーするのに1.33秒かかり、構成Kでは5.33秒かかりました。HPLアプリケーション全体は23～25秒間動作します。すべてのV100-SXM2は同じであり、コンピューティング時間は同じであるため、データのコピーでのこの4秒の節約により、構成Mが16%より速くなります。

2）複数ノード。8台のGPUを搭載した2つのC4140ノードの結果は、2つのノードで15%以上のHPLの改善を示しています。つまり、構成Mは、前述のシングルノードでの4枚のカードのときと同じ理由で、構成Kよりもノード間での拡張性が優れていることを意味します。

3）効率性。電力消費量はiDracで測定されました。図3（c）は、時系列でのワット数を示しています。どちらのシステムも、GFLOPS数がより大きいため、ピーク時に約1850 Wまで到達します。構成Mは、HPL効率と同様により優れたワット数あたりのパフォーマンスを提供します。

HPLは、システムレベルのベンチマークで、その結果は、CPU、GPU、メモリー、PCIe帯域幅などのコンポーネントによって決定されます。構成Mは、2つのCPUにわたってバランス設計されています。したがって、このHPLベンチマークで構成Kよりも優れたパフォーマンスを提供します。

GROMACS

GROMACSは、多くの複雑な相互作用を持つタンパク質、脂質、および核酸などの生化学的分子をシミュレートするように設計されたオープンソースの分子動力学用アプリケーションです。バージョン2018.3は、300万の原子を持つ水分子3072データセットでテストされています。

SLN315976_en_US__71(17)

図4：C4140構成KおよびMでの複数V100を使用したGROMACSのパフォーマンス結果

図4は、構成Mの構成Kより高いパフォーマンス向上を示しています。1枚のカードでのパフォーマンスは、データパスに違いがないため、2つの構成全体で同じです。2台と4台のGPUを使用すると、構成Mは構成Kよりも最大5%速くなります。2つのノードでテストした場合、構成Mのパフォーマンスの方が最大10%良くなります。主な理由は、PCIe接続数の増加です。これにより、多くの帯域幅を提供し、より多くのデータをより早くGPUにフィードできます。GPUを使用するとGROMACSを大幅に高速化できますが、このアプリケーションはCPUとGPUの両方を並行して計算するために使用します。したがって、GROMACSがクラスター内の一番上のアプリケーションである場合は、強力なCPUを推奨します。また、このグラフでは、サーバー数やGPU数が増えた場合のGROMACSパフォーマンスの拡張を示しています。アプリケーションのパフォーマンスは、GPUやサーバーの数が増えるにつれて高くなりますが、GPU追加によるパフォーマンスの向上は直線的にはなりません。

NAnoscale Molecular Dynamics（NAMD）

NAMDは、大規模な生体分子システムの高パフォーマンスシミュレーション向けに設計された分子動力学シミュレーションコードです。これらのテストでは、事前ビルド済みバイナリーは使用されませんでした。代わりに、CUDA 10で最新のソースコード（NAMD_Git-2018-10-31_Source）を使用してNAMDが構築されました。図4は、STMVデータセットを使用したパフォーマンス結果を示しています（1,066,628原子、周期的、PME）。f1atpase（327,506原子、周期的、PME）およびapoa1（92,224原子、周期的、PME）などの小規模なデータセットをテストすると、構成Mと構成K間で類似した比較結果が出ますが、簡略化するためにここでは説明しません。

SLN315976_en_US__81(16)
図5：C4140構成KおよびMでの複数V100を使用したNAMDのパフォーマンス結果

GROMACSのように、4倍以上のPCIe帯域幅は、NAMDでのパフォーマンスに役立ちます。図5は、2枚および4枚のカードを使用した構成Mのパフォーマンスが、STMVデータセットで構成Kよりそれぞれ16%および30%高いことを示しています。GPU 1台だけでテストした場合、PCIe帯域幅が同一であるため、1枚のカードでのパフォーマンスも同じであると予想されます。

結論および今後の計画

このブログでは、HPC、GROMACS、およびNAMDでのHPCアプリケーションのパフォーマンスを、PowerEdge C4140の2つの異なるNVLINK構成で比較しました。HPL、GROMACS、およびNAMDは、構成Mで構成Kより最大10%優れたパフォーマンスを示します。すべてのテストにおいて、構成Mは、構成Kの優れた機能をすべて持ち合わせ、それに加えてより多くのPCIeリンクを提供し、PCIeスイッチがないため、少なくとも構成Kと同じパフォーマンスを提供します。将来的には、RELION、HOOMD、AMBERなど、より多くのアプリケーションでの追加テストが計画されています。また、V100 32G GPUを使用したテストも計画されています。

Productos afectados

High Performance Computing Solution Resources, Poweredge C4140

Número del artículo: 000181595

Tipo de artículo: Solution

Última modificación: 21 feb 2021

Versión: 2

Compruebe si el dispositivo está cubierto por los servicios de soporte.

C4140構成MでのHPCアプリケーションのパフォーマンス

Resumen: 新しい「構成M」ソリューションを追加したDell EMC PowerEdge C4140の詳細について説明します。

Síntomas

Resolución

Productos afectados

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Bienvenido

Bienvenido a Dell

C4140構成MでのHPCアプリケーションのパフォーマンス

Resumen: 新しい「構成M」ソリューションを追加したDell EMC PowerEdge C4140の詳細について説明します。

Artículo detallado

Síntomas

Resolución

Productos afectados

Síntomas

Resolución

Productos afectados

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte