Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ml) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. NVIDIA Volta V100S ve NVIDIA Tesla T4 tencursor Core GPU 'lar gibi çeşitli GPU 'ların yanı sıra NVIDIA Quadro RTX GPU'ları destekler .
(Şekil. 1 Dell EMC DSS840 Server)
Bu blogda, uygun maliyetli NVIDIA Quadro RTX 6000 ve NVıDıA Quadro RTX 8000 GPU 'ların performansını, çeşitli sektör standardı sınama araçlarını kullanarak üst katman Hızlandırıcı V100S GPU 'SU ile karşılaştırıyoruz. Bu, tek ve çift duyarlıklı iş yüklerine karşı test içerir. Quadro serisi uzun bir süre vardı, yani NVıDıA kat mimarisine sahip RTX GPU 'Lar geç 2018 ' de kullanıma sunuldu. Tablo 1 ' deki Teknik özellikler RTX 8000 GPU 'nun daha yüksek bellek yapılandırması açısından RTX 6000 ile üstün olduğunu gösteriyor. Ancak RTX 8000 ve RTX 6000 GPU 'Lar V100S GPU ile karşılaştırıldığında daha yüksek güç ihtiyaçlarına sahiptir. Daha yüksek bir bellek kapasitesi gerektiren iş yükleri için RTX 8000 daha iyi bir seçimdir.
Teknik Özellikler | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Mimari | Turing | Volta | |
Bellek | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Varsayılan saat hızı (MHz) | 1395 | 1245 | |
GPU maksimum saat hızı (MHz) | 1770 | 1597 | |
CUDA çekirdekleri | 4608 | 5120 | |
FP32 (maksimum TFLOPS) | 16,3 | 16,4 | |
Bellek bant genişliği (GB/sn) | 672 | 1134 | |
Power (Güç) | 295 W | 250 W |
Tablo. 1 GPU teknik özellikleri
Sunucu | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
İşlemci | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Bellek | 24 x 32 GB @ 2933 MT/s (768 GB toplam) | ||
'SUNA | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Depolama | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Güç Kaynakları | 4 x 2400 W |
Tablo. 2 sunucu yapılandırma ayrıntıları
BIOS | 2.5.4 |
---|---|
İşletim Sistemi | RHEL 7,6 |
Kernel | 3.10.0-957.el7.x86_64 |
Sistem Profili | Optimize Edilmiş Performans |
CUDA araç kiti CUDA sürücüsü |
10,1 440.33.01 |
Tablo. 3 sistem üretici yazılımı ayrıntıları
Uygulama | Sürüm |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel mkl 2018 güncelleme 4 |
LAMMPS | Mart 3 2020 openmpi – 4.0.3 |
MLPERF | v 0,6 eğitimi Docker 19,03 |
Tablo. 4 uygulama bilgileri
LAMMPS , Sandia Ulusal laboratuvarlarda ve Temple Üniversitesi 'nde araştırmacılar tarafından bakımı yapılan bir Molesel Dynamics uygulamasıdır. LAMMPS, NVıDıA GPU 'Larda verimli bir şekilde çalışmak için KOKKOS paketi ile derlenmişti . Lennard Jones veri kümesi, Şekil 2 ' de gösterildiği şekilde performans karşılaştırma ve zaman dilimlerini ölçmektedir.
(Şekil. 2 mernard Jones grafik)
Tablo 1 ' de listelendiği gibi, RTX 6000 ve RTX 8000 GPU 'Lar aynı sayıda çekirdeğe, tek duyarlıklı performansa ve GPU bant genişliğine sahip olmakla birlikte, farklı GPU belleklerini de vardır. Her iki GPU 'nun da benzer bir yapılandırması olduğundan, performans aynı aralıkta de yer alabilmektedir. Bu uygulama için RTX GPU iyi ölçek ve her iki GPU için de performans aynıdır.
Volta V100S GPU performansı, Quadro RTX GPU 'lardan yaklaşık üç kat daha hızlıdır. Bu daha yüksek performans için temel faktör, V100S GPU 'nun daha yüksek GPU bellek bant genişi olur.
HPL, bilgi işlem performansını ölçen standart bir HPC karşılaştırmalı bir kıyaslandır. Dünyanın dört bir yanındaki ana bilgisayarlar tarafından TOP500 listesi tarafından karşılaştırmalı bir başvuru olarak kullanılır.
Aşağıdaki şekil, DSS 8440 sunucu kullanan RTX 6000, RTX 8000 ve V100S GPU 'ların performansını göstermektedir. Gördüğünüz gibi, RTX GPU 'ların performansı V100S GPU 'dan önemli ölçüde daha düşüktür. HPL, öncelikli olarak çift duyarlıklı kayan nokta işlemleri olan bir matris LU factorun gerçekleştirdiği için bu beklenir.
(Farklı GPU 'Lar ileşekil. 3 HPL performans)
Teorik kayan nokta performansını, yani her iki GPU 'nun de en yüksek olduğunu karşılaştırdığımız takdirde V100S GPU performansının çok daha yüksek olduğunu görüyoruz. Tek bir RTX GPU 'daki teorik bir Rtepe değeri yaklaşık 500 adet Gpk'dir. Bu değer GPU başına daha az performans (Rmax) verir. Volta V100S GPU 'nun Rtepe değeri, her karttan daha yüksek performans elde etmenizi sağlayan 8.2 TFlops ' dir.
MLPerf paketi 'nin gelişiminde ML LED 'i için endüstri standardında performans kıyaslamaları ihtiyacı. Bu paket, ML donanımının ve yazılımlarının eğitim ve çıkarma performansını değerlendirmek için değerlendirmeler içerir. Bu bölüm yalnızca GPU 'nun eğitim performansını ele alarak geçerlidir. Aşağıdaki tabloda, GPU 'Ların değerlendirilmesi için kullanılan derin öğrenme iş yükleri, veri kümeleri ve hedef ölçütleri listelenmektedir.
Kıyaslama | Güncellen | Kalite hedefi | Referans uygulama modeli |
---|---|---|---|
Resim sınıflandırması | ImageNet (224x224) | % 75,9 en yüksek-1 doğruluk | ResNet-50 v 1.5 |
Nesne algılama (ışık ağırlığı) |
COCO 2017 | %23 eşleşme | SSD-ResNet34 |
Nesne algılama (ağır ağırlık) |
COCO 2017 | 0,377 Box minimum AP 0,339 Mask MINIMUM AP |
Maske R-CNN |
Çeviri (recurkiralık) |
WMT Ingilizce-Almanca | 24,0 BLEU | GNMT |
Çeviri (tekrarlamayan) |
WMT Ingilizce-Almanca | 25,0 BLEU | Transformat |
Reinforcement Learning | N/A | Eğitime öncesi kontrol noktası | Mini hareket |
Tablo. 5 mlperf veri kümeleri ve hedef ölçütleri (Kaynak:https://mlperf.org/Training-Overview/#overview )
Aşağıdaki şekil, RTX ve V100S GPU 'ların her ikisi için de hedef ölçüte uymak için gereken zamanı göstermektedir:
(Şekil. 4 Mlperf performansı)
Sonuçlar birden çok çalıştırma gerçekleştirildikten sonra, en yüksek ve en düşük değeri atarak ve listelenen yönergelere göre diğer çalışma değerinin ortalamasını aldığı düşünülür. Her iki RTX GPU 'nun da performansı benzerdir. Her iki RTX GPU arasındaki varyans yüzdesi en az ve MLPerf yönergelerine göre kabul aralığı içinde. Volta V100 GPU en iyi performansı sağlarken, RTX GPU 'Lar nesne algılama kıyaslanması dışında da iyi bir şekilde gerçekleştirilir.
Yayımlanma tarihinde, MLPerf 'deki görüntü sınıflandırması, bir evrleşme hatası nedeniyle RTX GPU 'Lar ile birlikte başarısızlıkla sonuçlandı. Bu sorunun gelecekteki bir cuDNN sürümünde düzeltilmesi beklenir.
Bu blogda, HPC ve AI iş yükleri için Dell EMC DSS 8440 GPU sunucusu ve NVıDıA RTX GPU 'ların performansını tartıştık. Her iki RTX GPU 'nun da performansı benzerdir, ancak daha yüksek miktarda bellek gerektiren uygulamalar için RTX 8000 GPU en iyi bir seçimdir. Çift duyarlıklı iş yükleri veya yüksek bellek bant genişliği Volta V100S gerektiren iş yükleri ve yeni NVıDıA A100 GPU en iyi seçimdir.
Gelecekte, tek duyarlıklı uygulamalara sahip RTX GPU 'Lar ve RTX ve A100 GPU 'Lar üzerinde bir çıkarım incelemesi için bir performans incelemesi sağlamayı planlıyoruz.