Not: HPC ve AI Innovation Lab'den Kihoon Yoon tarafından Aralık 2019'da
yazılan makaleYeni donanım ve güncelleştirilmiş ardışık düzen birlikte, önceki Hazır Çözüme göre üretilen işi 3 kat artırır.
Genel bakış
Gen ekspresyon analizi, Tek Nükleotid Polimorfizmi (SNP), ekleme/silme (indel) veya kromozomal yeniden yapılanmanın tanımlanması kadar önemlidir. Sonunda, tüm fizyolojik ve biyokimyasal olaylar, nihai gen ekspresyon ürünlerine, proteinlere bağlıdır. Çoğu memeli, protein ekspresyonundan önce ek bir kontrol katmanına sahip olsa da, bir sistemde kaç tane transkript bulunduğunu bilmek, bir hücrenin biyokimyasal durumunu karakterize etmeye yardımcı olur. İdeal olarak, bir teknoloji, Yaşam Biliminin ilerlemesinde önemli ölçüde başarılı olabilecek bir hücredeki tüm proteinleri ölçmemizi sağlar; Ancak, bunu başarmaktan çok uzağız.
Burada, bu blogda, Smokin boru hattı olarak bilinen popüler bir RNA-Seq veri analizi boru hattını test ediyoruz (1). Smokin boru hattı paketi çeşitli RNA-Seq verilerini analiz etmek için bir dizi araç sunar, kısa okuma haritalama, ekleme bağlantılarının tanımlanması, transkript ve izoform algılama, diferansiyel ifade, görselleştirmeler, ve kalite kontrol metrikleri dahil. Boru hattındaki ayrıntılı adımlar Şekil 1'de gösterilmektedir. Smokin boru hattının bu güncellenmiş sürümü, önceki blogda test edilen eski sürümle karşılaştırıldığında Cuffquant adımını içerir (2).
Şekil 1 Cuffquant Step
ile Güncellenmiş Smokin Boru HattıTest kümesinin konfigürasyonları Tablo 1'de özetlenmiştir.
Tablo 1: Test edilen bilgi işlem düğümü yapılandırması |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
İşletim Sistemi |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS Sistem Profili |
Optimize Edilmiş Performans |
Mantıksal İşlemci |
Disabled |
Sanallaştırma Teknolojisi |
Disabled |
Şapka |
2.1.1 |
Papyon2 |
2.2.5 |
R |
3.6 |
biyoiletken-küme |
2.26.0 |
Test edilen bilgi işlem düğümleri, Intel® Omni-Path (3) aracılığıyla Lustre Storage için Dell EMC Ready Solution'a bağlandı. Depolamanın özet yapılandırması Tablo 2'de listelenmiştir.
Tablo 2 Lustre Depolama Çözümü donanım ve yazılım özellikleri |
|
Lustre Storage için Dell EMC Hazır Çözüm |
|
Düğüm sayısı |
1x Lustre (IML) için Entegre Yönetici olarak Dell EMC PowerEdge R640 |
İşlemciler |
IML sunucusu: Çift Intel Xeon Gold 5118 @ 2,3 GHz |
Bellek |
IML sunucusu: 12 x 8 GB 2.666 MT/sn DDR4 RDIMM |
Harici depolama |
2 x Dell 12 Gb/sn SAS HBA (her bir MDS de) |
Nesne depolama |
Toplam 336 x 8 TB NL 7,2K RPM SAS HDD ile 4x ME4084 |
Meta veri depolama |
24x 960 GB SAS SSD ile 1x ME4024. 4.688B'ye kadar dosyayı/inode'u destekler |
RAID denetleyicileri |
ME4084 ve ME4024 muhafazalarında çift yönlü RAID |
İşletim sistemi |
CentOS 7.5 x86_64 |
Kernel sürümü |
3.10.0-862.el7.x86_64 |
BIOS sürümü |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre dosya sistemi |
2.10.4 |
IML sürümü |
4.0.7.0 |
RNA-Seq boru hattının performans çalışması önemsiz değildir çünkü doğa iş akışı özdeş olmayan girdi dosyaları gerektirir. 185 RNA-Seq eşleştirilmiş uç okuma verileri, halka açık bir veri havuzundan toplanır'dir. Tüm okunan veri dosyaları yaklaşık 25 Milyon Parça (MF) içerir ve benzer okuma uzunluklarına sahiptir. 185 eşleştirilmiş uç okuma dosyası havuzundan rastgele seçilen bir test örnekleri. Rastgele seçilen bu verilerin herhangi bir biyolojik anlamı olmayacak olsa da, kesinlikle yüksek düzeyde gürültü içeren bu veriler, testleri en kötü durum senaryosuna sokacaktır.
Performans Değerlendirmesi
İki Örneklem Testi
Şekil 2'de, her adımın çalışma zamanı çizilir. Test, yaklaşık 25 milyon okunmuş RNA-Seq verisi içeren iki örnekle iki hesaplama düğümünde çalıştırıldı. Tophat adımı, bir işlem düğümündeki her örnek için paralel olarak başlar. Daha sonra, Kol Düğmeleri Tophat'ın tamamlanmasıyla başlar. Kol Düğmesi adımı, iki Kol Düğmesi çalışmasından elde edilen sonuçları birleştirir. Her numunedeki gen ekspresyonlarını ölçmek için Cuffquant adımı eklenir ve sonuçlar Cuffdiff ve Cuffnorm adımlarında daha ayrıntılı olarak incelenir. Son adım, CummeRbund, CummeRbund R-paketinden istatistiksel bir analiz adımıdır ve Şekil 2'de gösterildiği gibi görselleştirilmiş bir rapor oluşturur.
Şekil 2 İki örnekli Smokin boru hattı için toplam çalışma zamanı: SRR1608490 ve SRR934809.
Şekil 3, 8 örnek çalışmasından (her örnek 4 kopyadan oluşur) diferansiyel olarak ifade edilen genleri, siyah renkle gösterilen diğer gen ifadelerine kıyasla önemli ölçüde daha düşük p değerlerine (Y ekseni) sahip kırmızı renkte göstermektedir1. X ekseni, 2'nin log tabanındaki kat değişiklikleridir ve her genin bu kat değişiklikleri p değerlerine karşı çizilir. Daha fazla örnek, daha iyi bir gen ekspresyonu tahmini getirecektir. Sağ üst grafik, örnek 1 ile karşılaştırmalarda örnek 2'deki gen ifadeleridir, sol alt grafik ise örnek 2'ye kıyasla örnek 1'deki gen ifadeleridir. Siyah noktalardaki gen ifadeleri her iki örnekte de önemli ölçüde farklı değildir.
Şekil 3: Cuffdiff sonuçlarının
volkan grafiğiVerim Testi – İkiden fazla numune içeren tek boru hattı, biyolojik ve teknik kopyalar
Tipik RNA-Seq çalışmaları, birden fazla örnekten, bazen 100'lerce farklı örnekten, normale karşı hastalıktan veya tedavi edilmemişe karşı tedavi edilmiş örneklerden oluşur. Bu örnekler, biyolojik nedenlerinden dolayı yüksek düzeyde gürültüye sahip olma eğilimindedir; Bu nedenle analiz, güçlü bir veri ön işleme prosedürü gerektirir.
Bir PowerEdge C6420 kümesindeki 8 düğüm tarafından ne kadar veri işlenebildiğini görmek için çeşitli sayıda örneği (185 çift uçlu okuma veri kümesinden seçilen tüm farklı RNA-Seq verileri) test ettik. Şekil 4'te gösterildiği gibi, örnek sayısı arttıkça 2, 4, 8, 16, 32 ve 64 örnekli çalışma süreleri katlanarak büyür. Cascade Lake 6248/LustreME4 depolaması ve güncellenen boru hattı ile Milyar Parça/Gün sayısı yaklaşık üç kat arttı.
Şekil 4 Cascade Lake 6248/LustreME4 ve Skylake 6148/H600 arasında 8x C6420 ile üretilen iş karşılaştırmalarıCuffmerge adımı, numune sayısı arttıkça yavaşlamazken Cuffdiff ve Cuffnorm adımları önemli ölçüde yavaşlar.
Özellikle, çalışma süresi katlanarak büyüdüğü için Cuffdiff adımı boru hattı için bir darboğaz haline gelir (Şekil 5). Cuffnorm'un çalışma zamanı Cuffdiff gibi katlanarak artsa da, Cuffnorm'un çalışma zamanı Cuffdiff'in çalışma zamanı ile sınırlandığı için göz ardı edilebilir. Cuffquant adımının eklenmesi, Cuffdiff'in çalışma süresini önemli ölçüde iyileştirdi. Cuffdiff adımında 30 saatlik çalışma süresi azalması ve Cuffnorm, Cuffquant adımıyla 20 saat daha hızlı tamamladı. Cuffdiff ve Cuffnorm aynı anda başladığı için Cuffnorm'dan performans kazancı görünmese de.
Şekil 5 Cuffdiff ve Cuffnorm'da
çalışma zamanı artışıSonuç
Verim testi sonuçları, Lustre depolamalı 8 düğümlü PowerEdge C6420'lerin, Şekil 1'de gösterilen Smokin boru hattı aracılığıyla her biri ~50 milyon çift okuma (25 MF) ile 64 örnekten yaklaşık 2,7 Milyar Parça işleyebildiğini göstermektedir. Smokin boru hattı diğer popüler boru hatlarından nispeten daha hızlı olduğundan, bir HPC sistemini doğru bir şekilde boyutlandırmak için bu sonuçları genelleştirmek veya kullanmak zordur. Ancak sonuçlar, HPC sisteminin boyutu hakkında kabaca bir tahminde bulunmaya yardımcı olabilir.
Kaynaklar
1. RNA-Seq Diferansiyel Gen Ekspresyonu: Temel eğitim. [İnternet üzerinden] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. HPC Yaşam Bilimleri için Dell EMC Ready Bundle ile RNA-Seq ardışık düzen karşılaştırması. [İnternet üzerinden] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. HPC Lustre Depolaması için Dell EMC Hazır Çözüm. [Bağlantı 07/2024 itibariyle ölü]
Not: Bunlar, aralarında anlamlı bir ilişki olmaksızın bir örnek havuzundan rastgele seçilir.