Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Turing ile HPC uygulamaları performansı

Summary: Bu makale, Mart 2019'da Dell EMC HPC and AI Innovation Lab'den Frank Han, Rengan Xu, Deepthi Cherlopalle ve Quy Ta tarafından yazılmıştır

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


İçindekiler:

  1. Özet
  2. Genel Bakış
  3. HOOMD-blue
  4. Sarı
  5. Nanoscale Molecular Dynamics (NAMD)
  6. Yüksek Performanslı Linpack (HPL)
  7. Sonuç ve gelecekteki çalışmalar

 

Özet

 

Volta mimarisinin ardılı olan Turing™, NVIDIA®'nın en yeni NVIDIA GPU ailesidir. Turing™ GPU, son derece gerçekçi oyunlar oluşturmak için kullanılan GeForce® ve içerik oluşturma iş akışlarını hızlandıran Quadro® ile kullanılabilir. NVIDIA® Tesla® serisi, veri merkezlerindeki yapay zeka sistemlerini ve yüksek performanslı bilgi işlem (HPC) iş yüklerini ele almak için tasarlanmıştır. NVIDIA® Tesla® T4, şu anda piyasada bulunan Turing™ mikro mimarisine sahip sunucu sınıfı tek GPU olmanın yanı sıra Dell EMC PowerEdge R640, R740, R740xd ve R7425 sunucuları tarafından desteklenmektedir. Bu blogda HOOMD-blue, Amber, NAMD ve HPL dahil olmak üzere farklı HPC uygulamaları için PowerEdge R740 sunucusundaki en yeni Volta V100-PCIe'ye kıyasla yeni Tesla T4'ün performansı açıklanmaktadır.


Başa Dön


 

Genel Bakış

 

PowerEdge R740 sunucusu; ideal depolama, G/Ç ve hızlandırıcı desteği arasında denge sağlayan 2U Intel® Skylake tabanlı rafa monte edilebilen sunucudur. x16 PCIe 3.0 yuvalarında en fazla dört* adet tek yuva T4 veya çift yuva genişliğinde üç adet V100-PCIe GPU destekler.  Tablo 1, tek bir T4 ve V100 arasındaki farkları göstermektedir. Volta™ V100, 16 GB veya 32 GB bellek yapılandırmalarında mevcuttur.  T4 yalnızca 16 GB'lık bir sürümde mevcut olduğundan performans sonuçlarını tutarlı şekilde karşılaştırmak için 16 GB belleğe sahip V100 kart kullanılmıştır. Tablo 2, sınama ortamındaki donanım ve yazılımın ayrıntılarını listelemektedir.

Tablo 1: T4 ve V100 karşılaştırması

 

Tesla V100-PCIe

Tesla T4

Mimari

Volta

Turing

CUDA çekirdekleri

5120

2560

Tensor çekirdekleri

640

320

Bilgi işlem kapasitesi

7,0

7,5

GPU saat hızı

1245 MHz

585 MHz

Artırılmış saat hızı

1380 MHz

1590 MHz

Bellek türü

HBM2

GDDR6

Bellek veri yolu

4096 bit

256 bit

Bant genişliği

900 GB/sn

320 GB/sn

Yuva genişliği

Çift yuva

Tek yuva

FP32 tek duyarlıklı

14 TFLOPS

8,1 TFLOPS

Karma duyarlıklı (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 çift duyarlıklı

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tablo 2: R740 yapılandırması ve yazılım sürümünün ayrıntıları

İşlemci

2 adet Intel® Xeon® Gold 6136 (3,0 GHz'de), 12 çekirdek

Bellek

384 GB [12*32 GB (2666 MHz)]

Yerel disk

480 GB SSD

İşletim sistemi

Red Hat Enterprise Linux Server sürüm 7.5

GPU

3 adet V100-PCIe 16 GB veya 4 adet T4 16 GB

CUDA sürücüsü

410.66

CUDA araç kiti

10.0

İşlemci ayarları > mantıksal işlemciler

Disabled (Devre Dışı)

Sistem profilleri

Performans

HPL

CUDA 10.0 ile birlikte derlenir

NAMD

NAMD_Git-2019-02-11

Sarı

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Başa Dön


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Şekil 1: PowerEdge R740 sunucusunda V100 ve T4 ile HOOMD-blue tek ve çift duyarlık performansı sonuçları

HOOMD-blue (Açılımı: Yüksek Derecede Optimize Edilmiş Nesne odaklı Çok parçacıklı Dinamik - mavi) genel amaçlı bir moleküler dinamik simülatördür. Varsayılan olarak HOOMD-blue, çift duyarlıkta (FP64) derlenir; sürüm 2.5'te SINGLE_PRECISION=ON parametresiyle tek duyarlıkta (FP32) derlemeye zorlama sağlanır. Şekil 1, tek ve çift duyarlık için mikroküre veri seti sonuçlarını göstermektedir. X ekseni GPU sayısını gösterir ve performans metriği 10e6 adımlarını çalıştırmak için saat cinsinden verilmiştir.

  1. T4'ün FP64 performansının nispeten düşük olduğu görülebilir. Bunun nedeni donanım sınırlamasıdır. Teorik olarak T4, çift duyarlıkta 254 GFLOPS (Bkz. Tablo 1) tepe performansı sunabilirken V100 bundan yaklaşık 27 kat daha iyidir. Ancak, tek bir duyarlıkla derlenip çalıştırılabilen HOOMD-blue gibi uygulamaların performansı, FP32 derleme seçeneği ile avantajlı olabilir. HOOMD-blue topluluğu, tüm HOOMD-blue modüllerinde karma duyarlığı destekleme konusundaki önerimizi dikkate almıştır. Çalışmalar tamamlandığında HOOMD-blue, karma duyarlık destekli donanımdan daha iyi şekilde yararlanabilir.

  2. T4 ve V100'ün tek duyarlıklı performansı karşılaştırıldığında V100'ün T4'ten 3 kat daha iyi olduğunu fark ettik. T4'ün gösterdiği bu performans, CUDA çekirdeklerinin sayısı ve hızlandırıcıdaki güç derecesi nedeniyle normaldir.

  3. PowerEdge R740 sunucusundaki GPU'lar PCIe üzerinden bağlanır. Üç V100 GPU veri noktası için PCIe veriyolu, eşler arası iletişim nedeniyle doluluk sınırına ulaşır. Bu durum genel performansı etkiler ve bir GPU ile aynı performansın elde edilmesine neden olur.

 


Başa Dön


 

Sarı

 


Amber, kullanıcıların özellikle biyomoleküllerde moleküler dinamik simülasyonlar gerçekleştirmesini sağlayan bir dizi programın ortak adıdır. Amber terimi de bu program grubunda uygulanan deneysel kuvvet alanlarını ifade etmek için kullanılır. AmberTools 18.13 ile Amber 18.12 sürümü; JAC, Cellulose, FactorIX, STMV, TRPCage, miyoglobin ve nükleozom veri kümesini içeren Amber 18 Benchmark Suite ile test edilmiştir.

SLN316570_en_US__2image(9276)

Şekil 2: PowerEdge R740 sunucusunda V100 ve T4 ile Amber Açık Solvent sonuçları

SLN316570_en_US__3image(9277)

Şekil 3: PowerEdge R740 sunucusunda V100 ve T4 ile Amber Örtük Solvent sonuçları 

Şekil 2 ve Şekil 3, sırasıyla açık solvent ve örtük solvent üzerindeki tek kart ve bütün sistem performans değerlerini göstermektedir.  Yukarıdaki grafikteki "sistem" veri noktası, tüm GPU'ların eksiksiz sistem toplam verimini gösterir. PowerEdge R740 sunucusu, üç V100 veya dört T4'ü destekler. Bu nedenle, kırmızı ve mavi "sistem" çubukları üç V100 veya dört T4 ile elde edilen sonuçları göstermektedir.

Birden çok GPU kartına ilişkin toplam verilerin tercih edilme nedeni, Pascal ve sonraki GPU'ların Amber uygulaması için tek bir hızlandırıcının ötesinde ölçekleme yapmamasıdır. Kullanıcılar birden fazla simülasyonu genellikle diğer GPU'larda paralel şekilde çalıştırır. STMV (1.067.095 atom) gibi büyük bir veri kümesiyle elde edilen performans açısından tek T4, V100'ün kapasitesinin yüzde 33'ü, tüm sistem kapsımda ise bu kapasitenin yüzde 44'ü kadar performans göstermiştir. TRPCage gibi veri kümeleri (yalnızca 304 atom) V100'leri etkili bir şekilde kullanmak için çok küçüktür. Bu nedenle performans, daha büyük PME çalışmalarında olduğu gibi T4'ten çok daha hızlı değildir. Amber'in resmi web sitesindeki sonuçlara göre, neredeyse tüm GPU'ların değerleri yalnızca CPU'nun çalışmasından üç ila dört kat daha hızlıdır. Bu nedenle, küçük veri kümeleriyle ilgilenen bir sunucuda T4 kartına sahip olmak iyi bir seçenektir.


Başa Dön


 

Resolution

Nanoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Şekil 4: PowerEdge R740 sunucusunda V100 ve T4 ile NAMD performans sonuçları

NAMD, büyük biyomoleküler sistemlerin yüksek performanslı simülasyonu için tasarlanmış bir moleküler dinamik kodudur. Bu testlerde önceden oluşturulmuş ikili dosya kullanılmamıştır. Bunun yerine NAMD, CUDA 10.0 ile en son kaynak koduyla (NAMD_Git-2019-02-11) oluşturulmuştur. En iyi performansı elde etmek için NAMD, Intel® derleyicisi ve kitaplıkları (sürüm 2018u3) ile derlenmiştir. Şekil 4, STMV veri kümesini (1.066.628 atom, periyodik, PME) kullanarak performans sonuçlarını belirtir. NAMD, bir V100 kartın ötesinde ölçekleme yapmazken üç T4 kartla başarıyla ölçekleme yapabilir. Ayrıca tek T4 GPU, V100'ün yüzde 42'si kadar performans gösterir. T4'ün TDP değerinin, V100'ün sadece yüzde 28'i olduğu düşünüldüğünde bu başarılı bir orandır. T4, sınırlı güç ve soğutma kapasitesine sahip veri merkezleri için uygun olabilir.


Başa Dön


 

Yüksek Performanslı Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Şekil 5: PowerEdge R740 sunucusunda V100 ve T4 ile HPL sonuçları

Şekil 5, birden fazla V100 veya T4 GPU içeren PowerEdge R740'ta HPL performansını göstermektedir. Beklendiği üzere, HPL değerleri V100 ve T4 için birden fazla GPU ile başarıyla ölçeklendirilir. Ancak FP64 sınırlaması nedeniyle T4 performansı V100'ye göre önemli ölçüde düşüktür. T4'teki sınırlı çift duyarlık özelliğinden dolayı V100 ile performans karşılaştırması yapmak ideal değildir. Volta V100, bu tür çift duyarlıklı uygulamalar için en iyi seçim olmaya devam etmektedir.


Başa Dön


 

Sonuç ve gelecekteki çalışmalar

 

Bu blogda, Dell EMC PowerEdge R740'ta V100 ve T4 arasında HOOMD-blue, Amber, NAMD ve HPL ile HPC uygulama performansı karşılaştırılmıştır. T4 sadece derin öğrenme çıkarımı için değil, aynı zamanda tek veya karma duyarlıklı HPC uygulamaları için de yararlıdır. Düşük TDP, güç ve soğutma kapasitesinin sınırlı olduğu geleneksel veri merkezlerini hızlandırmaya yardımcı olabilir. T4'ün PCIe küçük form faktörü, daha genel amaçlı PowerEdge sunucuları için oldukça uygundur. Gelecekte RELION, GROMACS ve LAMMPS gibi daha fazla uygulamayla test yapılmasının yanı sıra karma duyarlıktan yararlanabilen uygulamalar için de ek testler yapılması planlanmaktadır.

*Sorumluluk reddi: Kıyaslama amacıyla Dell PowerEdge R740'ta dört adet T4 GPU değerlendirilmiştir. Şu anda PowerEdge R740, x16 PCIe yuvalarında resmi olarak en fazla üç adet T4 desteklemektedir.


Başa Dön


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.