メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

HPC ve AI İş Yükleri için NVIDIA RTX GPU'ların Çalıştırdığı Dell EMC DSS 8440 Sunucusu (İngilizce)

概要: Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ML) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. Bu makalede NVıDıA Volta V100S ve NVıDıA Tesla T4 Tencursor Core GPU 'lar gibi çeşitli GPU 'ların performansı ve bu sistemdeki NVıDıA Quadro RTX GPU 'Lar karşılaştırılmaktadır. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Derin sıkıştı ve filiz han

 

Dell EMC HPC ve AI yenilik laboratuarı 2020 Haziran

 

Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ml) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 ve NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tencursor Core GPU 'lar gibi çeşitli GPU 'ların yanı sıra NVIDIA Quadro RTX GPU'ları destekler SLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Şekil. 1 Dell EMC DSS840 Server)

Bu blogda, uygun maliyetli NVIDIA Quadro RTX 6000 ve NVıDıA Quadro RTX 8000 GPU 'ların performansını, çeşitli sektör standardı sınama araçlarını kullanarak üst katman Hızlandırıcı V100S GPU 'SU ile karşılaştırıyoruz. Bu, tek ve çift duyarlıklı iş yüklerine karşı test içerir. Quadro serisi uzun bir süre vardı, yani NVıDıA kat mimarisine sahip RTX GPU 'Lar geç 2018 ' de kullanıma sunuldu. Tablo 1 ' deki Teknik özellikler RTX 8000 GPU 'nun daha yüksek bellek yapılandırması açısından RTX 6000 ile üstün olduğunu gösteriyor. Ancak RTX 8000 ve RTX 6000 GPU 'Lar V100S GPU ile karşılaştırıldığında daha yüksek güç ihtiyaçlarına sahiptir. Daha yüksek bir bellek kapasitesi gerektiren iş yükleri için RTX 8000 daha iyi bir seçimdir.

Teknik Özellikler RTX 6000 RTX 8000 V100S-32 GB
Mimari Turing Volta
Bellek 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Varsayılan saat hızı (MHz) 1395 1245
GPU maksimum saat hızı (MHz) 1770 1597
CUDA çekirdekleri 4608 5120
FP32 (maksimum TFLOPS) 16,3 16,4
Bellek bant genişliği (GB/sn) 672 1134
Power (Güç) 295 W 250 W

Tablo. 1 GPU teknik özellikleri

Sunucu DellEMC, PowerEdge, DSS8440
İşlemci 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Bellek 24 x 32 GB @ 2933 MT/s (768 GB toplam)
'SUNA  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Depolama 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Güç Kaynakları 4 x 2400 W

Tablo. 2 sunucu yapılandırma ayrıntıları

BIOS 2.5.4
İşletim Sistemi RHEL 7,6
Kernel 3.10.0-957.el7.x86_64
Sistem Profili Optimize Edilmiş Performans
CUDA araç kiti
CUDA sürücüsü
10,1
440.33.01

Tablo. 3 sistem üretici yazılımı ayrıntıları

Uygulama Sürüm
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel mkl 2018 güncelleme 4
LAMMPS Mart 3 2020
openmpi – 4.0.3
MLPERF v 0,6 eğitimiSLN321776_en_US__1iC_External_Link_BD_v1
Docker 19,03

Tablo. 4 uygulama bilgileri

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 , Sandia Ulusal laboratuvarlarda ve Temple Üniversitesi 'nde araştırmacılar tarafından bakımı yapılan bir Molesel Dynamics uygulamasıdır. LAMMPS, NVıDıA GPU 'Larda verimli bir şekilde çalışmak için KOKKOS paketi ile derlenmişti SLN321776_en_US__6iC_External_Link_BD_v1 . Lennard Jones veri kümesi, Şekil 2 ' de gösterildiği şekilde performans karşılaştırma ve zaman dilimlerini ölçmektedir.

SLN321776_en_US__8image (18427)

(Şekil. 2 mernard Jones grafik)

 Tablo 1 ' de listelendiği gibi, RTX 6000 ve RTX 8000 GPU 'Lar aynı sayıda çekirdeğe, tek duyarlıklı performansa ve GPU bant genişliğine sahip olmakla birlikte, farklı GPU belleklerini de vardır. Her iki GPU 'nun da benzer bir yapılandırması olduğundan, performans aynı aralıkta de yer alabilmektedir. Bu uygulama için RTX GPU iyi ölçek ve her iki GPU için de performans aynıdır.

Volta V100S GPU performansı, Quadro RTX GPU 'lardan yaklaşık üç kat daha hızlıdır. Bu daha yüksek performans için temel faktör, V100S GPU 'nun daha yüksek GPU bellek bant genişi olur.


Yüksek Performanslı Linpack (HPL)

HPL, bilgi işlem performansını ölçen standart bir HPC karşılaştırmalı bir kıyaslandır. Dünyanın dört bir yanındaki ana bilgisayarlar tarafından TOP500 listesi tarafından karşılaştırmalı bir başvuru olarak kullanılır.

Aşağıdaki şekil, DSS 8440 sunucu kullanan RTX 6000, RTX 8000 ve V100S GPU 'ların performansını göstermektedir. Gördüğünüz gibi, RTX GPU 'ların performansı V100S GPU 'dan önemli ölçüde daha düşüktür. HPL, öncelikli olarak çift duyarlıklı kayan nokta işlemleri olan bir matris LU factorun gerçekleştirdiği için bu beklenir.

SLN321776_en_US__9image (18428)

(Farklı GPU 'Lar ileşekil. 3 HPL performans)

Teorik kayan nokta performansını, yani her iki GPU 'nun de en yüksek olduğunu karşılaştırdığımız takdirde V100S GPU performansının çok daha yüksek olduğunu görüyoruz. Tek bir RTX GPU 'daki teorik bir Rtepe değeri yaklaşık 500 adet Gpk'dir. Bu değer GPU başına daha az performans (Rmax) verir. Volta V100S GPU 'nun Rtepe değeri, her karttan daha yüksek performans elde etmenizi sağlayan 8.2 TFlops ' dir.


MLPerf

MLPerf paketi 'nin gelişiminde ML LED 'i için endüstri standardında performans kıyaslamaları ihtiyacı. Bu paket, ML donanımının ve yazılımlarının eğitim ve çıkarma performansını değerlendirmek için değerlendirmeler içerir. Bu bölüm yalnızca GPU 'nun eğitim performansını ele alarak geçerlidir. Aşağıdaki tabloda, GPU 'Ların değerlendirilmesi için kullanılan derin öğrenme iş yükleri, veri kümeleri ve hedef ölçütleri listelenmektedir.

Kıyaslama Güncellen Kalite hedefi Referans uygulama modeli
Resim sınıflandırması ImageNet (224x224) % 75,9 en yüksek-1 doğruluk ResNet-50 v 1.5
Nesne algılama
(ışık ağırlığı)
COCO 2017 %23 eşleşme SSD-ResNet34
Nesne algılama
(ağır ağırlık)
COCO 2017 0,377 Box minimum AP
0,339 Mask MINIMUM AP
Maske R-CNN
Çeviri
(recurkiralık)
WMT Ingilizce-Almanca 24,0 BLEU GNMT
Çeviri
(tekrarlamayan)
 WMT Ingilizce-Almanca  25,0 BLEU Transformat
Reinforcement Learning N/A Eğitime öncesi kontrol noktası Mini hareket

Tablo. 5 mlperf veri kümeleri ve hedef ölçütleri (Kaynak:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

Aşağıdaki şekil, RTX ve V100S GPU 'ların her ikisi için de hedef ölçüte uymak için gereken zamanı göstermektedir:

SLN321776_en_US__11image (18441)
(Şekil. 4 Mlperf performansı)

Sonuçlar birden çok çalıştırma gerçekleştirildikten sonra, en yüksek ve en düşük değeri atarak ve listelenen yönergelere göre diğer çalışma değerinin ortalamasını aldığı düşünülür. Her iki RTX GPU 'nun da performansı benzerdir. Her iki RTX GPU arasındaki varyans yüzdesi en az ve MLPerf yönergelerine göre kabul aralığı içinde. Volta V100 GPU en iyi performansı sağlarken, RTX GPU 'Lar nesne algılama kıyaslanması dışında da iyi bir şekilde gerçekleştirilir.

Yayımlanma tarihinde, MLPerf 'deki görüntü sınıflandırması, bir evrleşme hatası nedeniyle RTX GPU 'Lar ile birlikte başarısızlıkla sonuçlandı. Bu sorunun gelecekteki bir cuDNN sürümünde düzeltilmesi beklenir.

解決方法

Özet

Bu blogda, HPC ve AI iş yükleri için Dell EMC DSS 8440 GPU sunucusu ve NVıDıA RTX GPU 'ların performansını tartıştık. Her iki RTX GPU 'nun da performansı benzerdir, ancak daha yüksek miktarda bellek gerektiren uygulamalar için RTX 8000 GPU en iyi bir seçimdir. Çift duyarlıklı iş yükleri veya yüksek bellek bant genişliği Volta V100S gerektiren iş yükleri ve yeni NVıDıA A100 GPU en iyi seçimdir.

Gelecekte, tek duyarlıklı uygulamalara sahip RTX GPU 'Lar ve RTX ve A100 GPU 'Lar üzerinde bir çıkarım incelemesi için bir performans incelemesi sağlamayı planlıyoruz.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。