Genel Bakış
Yeni Nesil Dizileme (NGS) verilerini işlemenin ilk adımı, Birincil Analiz olarak adlandırılır. Bu adım dizileme aracına özeldir ve dizileme okumalarını içeren birden fazla FASTQ dosyası oluşturur. İkincil Analiz olarak bilinen bir sonraki adımda, FASTQ dizileme okumaları bir referans genom veya referans transkriptom ile eşlenir. Ek işlemler, örnek ile referans arasındaki varyantları veya farklılıkları belirler. Bu varyantlar sonraki adımlarda açıklanmakta ve yorumlanmaktadır. Tek bir örnek için ikincil analiz süresi; veri boyutuna, mevcut bilgi işlem kaynaklarına, yazılıma ve analitik iş akışına bağlı olarak saatler ile günler arasında değişiklik gösterir.
İkincil analiz, özellikle yüzlerce veya binlerce genom işlenirken yoğun bilgi işlem ve depolama gerektiren bir işlemdir. İkincil analiz sorunlarını önlemeye yönelik pek çok strateji mevcuttur. Yakın zamana kadar, donanım hızlandırıcıların özel yazılım gerektirmesi nedeniyle GPU'lar veya FPGA'lar ile donanım hızlandırması kullanımı düşük seviyelerdeydi. Parabricks'in 2019'da NVIDIA tarafından satın alınan genom yazılımı, GPU'lar ile çeşitli genom analizi iş akışları gerçekleştiren bir yazılım yığınının öncüsü oldu. Yaklaşık iki yıl önce
Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 GPU'lar ile Parabricks'i test ettik. Dell, sunucularında ve depolama çözümlerinde çok sayıda teknolojik yenilik gerçekleştirdi,
NVIDIA Clara Parabricks ise iyileştirilmiş hızlandırmaya sahip olan ve varyant çağırıcıların eklendiği sağlam sürümleri kullanıma sundu. Örneğin, NVIDIA® Tesla® T4 GPU'lara sahip
Dell EMC DSS 8440 sunucuya dayalı birden fazla GPU'lu sunucu tasarımı, ikincil analizi hızlandırma konusunda umut vadediyor ve fiyat ile performans arasında etkileyici bir denge sunuyordu. Bu blogda yeni bir referans mimarisi ve
Dell EMC Isilon F800 depolamaya sahip çoklu Tesla® T4 GPU, DSS 8440 sunucu üzerinde gerçekleştirilen NVIDIA Clara Parabricks ikincil analizinin karşılaştırma sonuçları ile ilgili bilgi verilmektedir.
Referans Mimarisi
Şekil 1, test edilen referans mimarisini göstermektedir. Mimari modülerdir ve ölçeklendirilmesi kolaydır. NVIDIA Clara Parabricks'in uygulama yazılımı, bir veya daha fazla GPU kullanarak ölçek genişletmeyi mümkün olduğunca basit hale getirir. Donanım yapı taşları; yönetim düğümü olarak
Dell EMC PowerEdge R640, GPU bilgi işlemi için DSS 8440 sunucusu ve Dell EMC Isilon F800 depolamayı içerir.
Şekil 1. Test edilen referans mimarisi
DSS 8440, 2 soket, 4U sunucu en fazla 10 adet sektör lideri NVIDIA® Tesla® V100S Tensor Core GPU, en fazla 10 adet NVIDIA® Quadro RTX™ GPU veya en fazla 16 adet NVIDIA Tesla T4 GPU alabilir ve bu sayede çok yüksek düzeyde güç sağlar. DSS 8440'ın ayrıntılı yapılandırması Tablo 1' de listelenmiştir.
Dell EMC DSS 8440 |
CPU |
2x Xeon® Gold 6248R 24 çekirdek 3,0 GHz |
RAM |
2933 MT/sn'de 24x 64 GB |
İşletim Sistemi |
Red Hat Enterprise Linux Sunucusu sürüm 7,4 (Maipo) |
BIOS Sistem Profili |
Optimize Edilmiş Performans |
Mantıksal İşlemci |
Disabled (Devre Dışı) |
Sanallaştırma Teknolojisi |
Disabled (Devre Dışı) |
Hızlandırıcılar |
16x NVIDIA® Tesla® T4 GPU |
Parabricks |
v3.0.0.05 |
İki adet Z9100-ON anahtarı, bilgi işlem düğümü ile Isilon F800 depolama kümesi arasında bağlantı sağlar. Ek anahtar N2248X-ON yönetim için kullanılır.
NGS Verileri
İkincil analizin çalışma zamanıyla ilgili karşılaştırma verileri üç insan, tüm genom dizileme (WGS) veri kümesinden oluşmaktadır:
ERR091571,
SRR3124837 ve
ERR194161. Bunlar sırasıyla 10x, 30x ve 50x örnek kapsamını temsil etmektedir. Bu veri kümeleri
Avrupa Nükleotid Arşivi'nde (ENA) mevcuttur.
Performans Değerlendirmesi
Yazılım İyileştirmeleri Çalışma Zamanını Azaltır
NVIDIA, NVIDIA Clara Parabricks için yazılım iyileştirmeleri yapmaya devam ediyor. Şekil 2, 4x V100 GPU test ortamına sahip Dell PowerEdge C4140 sunucusu kullanarak germ hattını yürüten iki Parabricks sürümünün çalışma zamanını azaltma sürelerini göstermektedir. v2.1.0'dan v3.0.0'a geçildiğinde çalışma zamanı %42 oranında azaltmıştır.
Şekil 2. Parabricks'in en son sürümünün germ hattı varyant çağırma hattı çalışma zamanı.
16x T4'a sahip DSS 8440'ın performansları
Tek bir T4 GPU'nun kullanıldığı
NVIDIA Clara Parabricks ikincil analizinin çalışma zamanı, bir V100 GPU'nun kullanılmasına kıyasla %30 daha yavaştır. Ancak iki (2) T4 GPU, yaklaşık yarısı kadar maliyetle bir (1) V100 GPU'dan %10 daha fazla TFLOPS sağlar. DSS 8440, 16 adede kadar PCIe yuvası sağlar. Bu da dört V100 GPU'lu bir C4140 sistemine benzer bir çalışma zamanı performansını daha düşük maliyetle sağlayan T4 GPU tabanlı bir sunucu tasarlama imkanı sunar.
Parabricks germ hattı analizi, 16 T4 GPU'lu bir PowerEdge DSS 8440 sunucu kullanılarak gerçekleştirilmiştir. Daha önce açıklanan her WGS örnek veri kümesi için çalışma zamanı, ikincil analiz başına 1, 2, 4, 8 ve 16 adet T4 GPU kullanılarak kaydedilmiştir. Sonuçlar Şekil 3, 4 ve 5'te gösterilmektedir. Genel olarak, analiz başına GPU sayısı arttıkça çalışma zamanı da doğrusal olarak ölçeklendirilmez. Ölçeklendirme deseni, örnek başına veri miktarının 10x'ten 50x'e artışına benzer.
Bu blogda sunulmamaktadır ancak
önceki bir Dell EMC incelemesinde, analiz başına sekiz veya daha fazla V100 GPU'nun kullanıldığı Parabricks çalışma zamanı sonuçları, T4 GPU'lar kadar verimli bir şekilde ölçeklendirilmemiştir. Ek testler, 6 T4 GPU'nun 4 V100 GPU ile neredeyse aynı çalışma zamanı sonuçlarını verdiğini göstermiştir.
Şekil 3. 10x WGS ile performans karşılaştırmaları
Şekil 4. 30x WGS ile performans karşılaştırmaları
Şekil 5. 50x WGS ile performans karşılaştırmaları
Sonuç
On altı T4 GPU'lu bir DSS 8440, her gün otuz 50x İnsan genomu işleyebilir. Geleneksel x86 CPU mimarisinin kullanıldığı benzer bir günlük analiz performansı, on PowerEdge C6420 bilgi işlem düğümü gerektirmektedir. Eksiksiz mimari,
önceki Dell yayınında ele alınmıştır.
Bununla birlikte, 16 adet T4 GPU'nun tamamının tek bir örneği işlemek için kullanılması çok az fayda sağlar. Bunun nedeni, analiz başına 16 GPU kullanmanın 8 GPU kullanmaya kıyasla en fazla %10 daha hız sunmasıdır. DSS 8440'ın tasarımı, birden fazla ikincil analizin paralel olarak gerçekleştirilmesini sağlar. Örnek başına sekiz T4 GPU atandığında günlük analiz performansı gün başına yaklaşık 50 genom artar. Örnek başına dört GPU kullanımı, analiz performansını günde ~70 genoma yükseltir. Daha da önemlisi, T4 GPU kullanıldığında bu günlük performans, V100 GPU tasarımını kullanmanın yarısından daha az maliyetle elde edilir.
Hızın yanı sıra diğer analiz araçlarıyla uyumluluk da sonuçların karşılaştırılabilmesi bakımından önem taşımaktadır. Parabricks germ hattı analizinin sonuçları, önceki testlerde kullanılan ve yaygın olarak tanınan BKMWA-JATK Haplotype çağırıcı analizinin sonuçlarıyla neredeyse aynıdır. Ayrıca Parabricks varyant çağırma sonuçlarını samtools/mpileup gibi diğer araç setleriyle de karşılaştırmak istedik. Birbirinden tamamen farklı bu iki araç, belirlenen varyantlarda yaklaşık %90 oranında genel uyum gösterir. Ayrıca önemli genler içeren ve iyi bilinen birçok genom bölgesindeki varyasyonlar da %99'dan yüksek oranda uyum gösterir.