Volta mimarisinin ardılı olan Turing™, NVIDIA®'nın en yeni NVIDIA GPU ailesidir. Turing™ GPU, son derece gerçekçi oyunlar oluşturmak için kullanılan GeForce® ve içerik oluşturma iş akışlarını hızlandıran Quadro® ile kullanılabilir. NVIDIA® Tesla® serisi, veri merkezlerindeki yapay zeka sistemlerini ve yüksek performanslı bilgi işlem (HPC) iş yüklerini ele almak için tasarlanmıştır. NVIDIA® Tesla® T4, şu anda piyasada bulunan Turing™ mikro mimarisine sahip sunucu sınıfı tek GPU olmanın yanı sıra Dell EMC PowerEdge R640, R740, R740xd ve R7425 sunucuları tarafından desteklenmektedir. Bu blogda HOOMD-blue, Amber, NAMD ve HPL dahil olmak üzere farklı HPC uygulamaları için PowerEdge R740 sunucusundaki en yeni Volta V100-PCIe'ye kıyasla yeni Tesla T4'ün performansı açıklanmaktadır.
PowerEdge R740 sunucusu; ideal depolama, G/Ç ve hızlandırıcı desteği arasında denge sağlayan 2U Intel® Skylake tabanlı rafa monte edilebilen sunucudur. x16 PCIe 3.0 yuvalarında en fazla dört* adet tek yuva T4 veya çift yuva genişliğinde üç adet V100-PCIe GPU destekler. Tablo 1, tek bir T4 ve V100 arasındaki farkları göstermektedir. Volta™ V100, 16 GB veya 32 GB bellek yapılandırmalarında mevcuttur. T4 yalnızca 16 GB'lık bir sürümde mevcut olduğundan performans sonuçlarını tutarlı şekilde karşılaştırmak için 16 GB belleğe sahip V100 kart kullanılmıştır. Tablo 2, sınama ortamındaki donanım ve yazılımın ayrıntılarını listelemektedir.
Tablo 1: T4 ve V100 karşılaştırması
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Mimari |
Volta |
Turing |
CUDA çekirdekleri |
5120 |
2560 |
Tensor çekirdekleri |
640 |
320 |
Bilgi işlem kapasitesi |
7,0 |
7,5 |
GPU saat hızı |
1245 MHz |
585 MHz |
Artırılmış saat hızı |
1380 MHz |
1590 MHz |
Bellek türü |
HBM2 |
GDDR6 |
Bellek veri yolu |
4096 bit |
256 bit |
Bant genişliği |
900 GB/sn |
320 GB/sn |
Yuva genişliği |
Çift yuva |
Tek yuva |
FP32 tek duyarlıklı |
14 TFLOPS |
8,1 TFLOPS |
Karma duyarlıklı (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
FP64 çift duyarlıklı |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tablo 2: R740 yapılandırması ve yazılım sürümünün ayrıntıları
İşlemci |
2 adet Intel® Xeon® Gold 6136 (3,0 GHz'de), 12 çekirdek |
---|---|
Bellek |
384 GB [12*32 GB (2666 MHz)] |
Yerel disk |
480 GB SSD |
İşletim sistemi |
Red Hat Enterprise Linux Server sürüm 7.5 |
GPU |
3 adet V100-PCIe 16 GB veya 4 adet T4 16 GB |
CUDA sürücüsü |
410.66 |
CUDA araç kiti |
10.0 |
İşlemci ayarları > mantıksal işlemciler |
Disabled (Devre Dışı) |
Sistem profilleri |
Performans |
HPL |
CUDA 10.0 ile birlikte derlenir |
NAMD |
NAMD_Git-2019-02-11 |
Sarı |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Şekil 1: PowerEdge R740 sunucusunda V100 ve T4 ile HOOMD-blue tek ve çift duyarlık performansı sonuçları
HOOMD-blue (Açılımı: Yüksek Derecede Optimize Edilmiş Nesne odaklı Çok parçacıklı Dinamik - mavi) genel amaçlı bir moleküler dinamik simülatördür. Varsayılan olarak HOOMD-blue, çift duyarlıkta (FP64) derlenir; sürüm 2.5'te SINGLE_PRECISION=ON parametresiyle tek duyarlıkta (FP32) derlemeye zorlama sağlanır. Şekil 1, tek ve çift duyarlık için mikroküre veri seti sonuçlarını göstermektedir. X ekseni GPU sayısını gösterir ve performans metriği 10e6 adımlarını çalıştırmak için saat cinsinden verilmiştir.
T4'ün FP64 performansının nispeten düşük olduğu görülebilir. Bunun nedeni donanım sınırlamasıdır. Teorik olarak T4, çift duyarlıkta 254 GFLOPS (Bkz. Tablo 1) tepe performansı sunabilirken V100 bundan yaklaşık 27 kat daha iyidir. Ancak, tek bir duyarlıkla derlenip çalıştırılabilen HOOMD-blue gibi uygulamaların performansı, FP32 derleme seçeneği ile avantajlı olabilir. HOOMD-blue topluluğu, tüm HOOMD-blue modüllerinde karma duyarlığı destekleme konusundaki önerimizi dikkate almıştır. Çalışmalar tamamlandığında HOOMD-blue, karma duyarlık destekli donanımdan daha iyi şekilde yararlanabilir.
T4 ve V100'ün tek duyarlıklı performansı karşılaştırıldığında V100'ün T4'ten 3 kat daha iyi olduğunu fark ettik. T4'ün gösterdiği bu performans, CUDA çekirdeklerinin sayısı ve hızlandırıcıdaki güç derecesi nedeniyle normaldir.
PowerEdge R740 sunucusundaki GPU'lar PCIe üzerinden bağlanır. Üç V100 GPU veri noktası için PCIe veriyolu, eşler arası iletişim nedeniyle doluluk sınırına ulaşır. Bu durum genel performansı etkiler ve bir GPU ile aynı performansın elde edilmesine neden olur.
Amber, kullanıcıların özellikle biyomoleküllerde moleküler dinamik simülasyonlar gerçekleştirmesini sağlayan bir dizi programın ortak adıdır. Amber terimi de bu program grubunda uygulanan deneysel kuvvet alanlarını ifade etmek için kullanılır. AmberTools 18.13 ile Amber 18.12 sürümü; JAC, Cellulose, FactorIX, STMV, TRPCage, miyoglobin ve nükleozom veri kümesini içeren Amber 18 Benchmark Suite ile test edilmiştir.
Şekil 2: PowerEdge R740 sunucusunda V100 ve T4 ile Amber Açık Solvent sonuçları
Şekil 3: PowerEdge R740 sunucusunda V100 ve T4 ile Amber Örtük Solvent sonuçları
Şekil 2 ve Şekil 3, sırasıyla açık solvent ve örtük solvent üzerindeki tek kart ve bütün sistem performans değerlerini göstermektedir. Yukarıdaki grafikteki "sistem" veri noktası, tüm GPU'ların eksiksiz sistem toplam verimini gösterir. PowerEdge R740 sunucusu, üç V100 veya dört T4'ü destekler. Bu nedenle, kırmızı ve mavi "sistem" çubukları üç V100 veya dört T4 ile elde edilen sonuçları göstermektedir.
Birden çok GPU kartına ilişkin toplam verilerin tercih edilme nedeni, Pascal ve sonraki GPU'ların Amber uygulaması için tek bir hızlandırıcının ötesinde ölçekleme yapmamasıdır. Kullanıcılar birden fazla simülasyonu genellikle diğer GPU'larda paralel şekilde çalıştırır. STMV (1.067.095 atom) gibi büyük bir veri kümesiyle elde edilen performans açısından tek T4, V100'ün kapasitesinin yüzde 33'ü, tüm sistem kapsımda ise bu kapasitenin yüzde 44'ü kadar performans göstermiştir. TRPCage gibi veri kümeleri (yalnızca 304 atom) V100'leri etkili bir şekilde kullanmak için çok küçüktür. Bu nedenle performans, daha büyük PME çalışmalarında olduğu gibi T4'ten çok daha hızlı değildir. Amber'in resmi web sitesindeki sonuçlara göre, neredeyse tüm GPU'ların değerleri yalnızca CPU'nun çalışmasından üç ila dört kat daha hızlıdır. Bu nedenle, küçük veri kümeleriyle ilgilenen bir sunucuda T4 kartına sahip olmak iyi bir seçenektir.
Şekil 4: PowerEdge R740 sunucusunda V100 ve T4 ile NAMD performans sonuçları
NAMD, büyük biyomoleküler sistemlerin yüksek performanslı simülasyonu için tasarlanmış bir moleküler dinamik kodudur. Bu testlerde önceden oluşturulmuş ikili dosya kullanılmamıştır. Bunun yerine NAMD, CUDA 10.0 ile en son kaynak koduyla (NAMD_Git-2019-02-11) oluşturulmuştur. En iyi performansı elde etmek için NAMD, Intel® derleyicisi ve kitaplıkları (sürüm 2018u3) ile derlenmiştir. Şekil 4, STMV veri kümesini (1.066.628 atom, periyodik, PME) kullanarak performans sonuçlarını belirtir. NAMD, bir V100 kartın ötesinde ölçekleme yapmazken üç T4 kartla başarıyla ölçekleme yapabilir. Ayrıca tek T4 GPU, V100'ün yüzde 42'si kadar performans gösterir. T4'ün TDP değerinin, V100'ün sadece yüzde 28'i olduğu düşünüldüğünde bu başarılı bir orandır. T4, sınırlı güç ve soğutma kapasitesine sahip veri merkezleri için uygun olabilir.
Şekil 5: PowerEdge R740 sunucusunda V100 ve T4 ile HPL sonuçları
Şekil 5, birden fazla V100 veya T4 GPU içeren PowerEdge R740'ta HPL performansını göstermektedir. Beklendiği üzere, HPL değerleri V100 ve T4 için birden fazla GPU ile başarıyla ölçeklendirilir. Ancak FP64 sınırlaması nedeniyle T4 performansı V100'ye göre önemli ölçüde düşüktür. T4'teki sınırlı çift duyarlık özelliğinden dolayı V100 ile performans karşılaştırması yapmak ideal değildir. Volta V100, bu tür çift duyarlıklı uygulamalar için en iyi seçim olmaya devam etmektedir.
Bu blogda, Dell EMC PowerEdge R740'ta V100 ve T4 arasında HOOMD-blue, Amber, NAMD ve HPL ile HPC uygulama performansı karşılaştırılmıştır. T4 sadece derin öğrenme çıkarımı için değil, aynı zamanda tek veya karma duyarlıklı HPC uygulamaları için de yararlıdır. Düşük TDP, güç ve soğutma kapasitesinin sınırlı olduğu geleneksel veri merkezlerini hızlandırmaya yardımcı olabilir. T4'ün PCIe küçük form faktörü, daha genel amaçlı PowerEdge sunucuları için oldukça uygundur. Gelecekte RELION, GROMACS ve LAMMPS gibi daha fazla uygulamayla test yapılmasının yanı sıra karma duyarlıktan yararlanabilen uygulamalar için de ek testler yapılması planlanmaktadır.
*Sorumluluk reddi: Kıyaslama amacıyla Dell PowerEdge R740'ta dört adet T4 GPU değerlendirilmiştir. Şu anda PowerEdge R740, x16 PCIe yuvalarında resmi olarak en fazla üç adet T4 desteklemektedir.