メイン コンテンツに進む

HPC Life Sciences için Dell EMC Ready Solution: Cascade Lake CPU ve Lustre/ME4 Refresh ile Tuxedo Hattı

概要: Bu makale, "HPC Life Sciences için Dell EMC Ready Solution: Cascade Lake CPU ve Lustre/ME4 Refresh ile Tuxedo Hattı" başlıklı teknik raporu içerir.

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Not: HPC ve AI Innovation Lab'den Kihoon Yoon tarafından Aralık 2019'da yazılan makale
Yeni donanım ve güncelleştirilmiş hat, önceki Ready Solution'a göre üretilen işi 3 kat artırır.

Genel bakış
Gen ekspresyon analizi, Tek Nükleotid Polimorfizmi (SNP), ekleme/silme (indel) veya kromozomal yeniden yapılanmanın tanımlanması kadar önemlidir. Sonuçta, tüm fizyolojik ve biyokimyasal olaylar, nihai gen ekspresyon ürünleri olan proteinlere bağlıdır. Çoğu memeli, protein ekspresyonundan önce ek bir kontrol katmanına sahip olsa da bir sistemde kaç tane transkript bulunduğunu bilmek, bir hücrenin biyokimyasal durumunu karakterize etmeye yardımcı olur. İdeal olarak bir teknoloji, bir hücredeki tüm proteinleri ölçmemizi sağlayarak Yaşam Biliminin ilerlemesinde önemli ölçüde başarılı olabilir; ancak, bunu başarmaktan çok uzağız. 
Burada, bu blogda, Tuxedo hattı olarak bilinen popüler bir RNA-Seq veri analizi hattını test ediyoruz (1). Tuxedo hattı paketiBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. çeşitli RNA-Seq verilerini analiz etmek için kısa okuma haritalama, ekleme bağlantılarının tanımlanması, transkript ve izoform algılama, diferansiyel ekspresyon, görselleştirmeler ve kalite kontrol metrikleri de dahil bir dizi araç sunar. Hattaki ayrıntılı adımlar Şekil 1'de gösterilmektedir. Tuxedo hattının bu güncellenmiş sürümü, önceki blogda test edilen eski sürümle karşılaştırıldığında Cuffquant adımını içerir (2).

Şekil 1 Cuffquant Adımıyla Güncelleştirilmiş Tuxedo HattıŞekil 1 Cuffquant Adımıyla Güncelleştirilmiş Tuxedo Hattı

Test kümesinin yapılandırmaları Tablo 1'de özetlenmiştir.

Tablo 1: Test edilen bilgi işlem düğümü yapılandırması

Dell EMC PowerEdge C6420

CPU

2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16 GB @2933 MT/s

İşletim Sistemi

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS Sistem Profili

Optimize Edilmiş Performans

Mantıksal İşlemci

Disabled

Sanallaştırma Teknolojisi

Disabled

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


Test edilen bilgi işlem düğümleri, Intel® Omni-Path (3) aracılığıyla Lustre Storage için Dell EMC Ready Solution'a bağlandı. Depolamanın ayrıntılı yapılandırması Tablo 2'de listelenmiştir.

Tablo 2 Lustre Depolama Çözümü donanım ve yazılım teknik özellikleri

Lustre Depolaması için Dell EMC Ready Solution

Düğüm sayısı

Integrated Manager for Lustre (IML) olarak 1x Dell EMC PowerEdge R640
Metadata Server (MDS) olarak 2x Dell EMC PowerEdge R740
Object Storage Server (OSS) olarak 2x Dell EMC PowerEdge R740

İşlemciler

IML sunucusu: Çift Intel Xeon Gold 5118 @ 2,3 GHz
MDS ve OSS sunucuları: Çift Intel Xeon Gold 6136 @ 3,00 GHz

Bellek

IML sunucusu: 12 x 8 GB 2.666 MT/sn DDR4 RDIMM
MDS ve OSS sunucuları: 24 x 16 GiB 2.666 MT/sn DDR4 RDIMM

Harici depolama
denetleyicileri

2 x Dell 12 Gb/sn SAS HBA (her MDS'de)
4 x Dell 12 Gb/sn SAS HBA (her OSS'de)

Nesne depolama
muhafazaları

Toplam 336 x 8 TB NL 7.2K rpm SAS HDD ile 4x ME4084

Meta veri depolama
muhafazası

24x 960 GB SAS SSD ile 1x ME4024. 4.688 B'ye kadar dosyayı/düğümü destekler

RAID denetleyicileri

ME4084 ve ME4024 muhafazalarında çift yönlü RAID

İşletim sistemi

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Kernel sürümü

3.10.0-862.el7.x86_64

BIOS sürümü

1.4.5

Intel Omni-Path
IFS sürümü

10.8.0.0

Lustre dosya sistemi
sürümü

2.10.4

IML sürümü

4.0.7.0


RNA-Seq hattının performans çalışması önemsiz değildir; doğal iş akışı özdeş olmayan girdi dosyaları gerektirir. 185 RNA-Seq eşleştirilmiş uç okuma verileri, açık veri havuzundanBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. alınır. Tüm okunan veri dosyaları yaklaşık 25 Milyon Parça (MF) içerir ve benzer okuma uzunluklarına sahiptir. 185 eşleştirilmiş uç okuma dosyası havuzundan rastgele seçilen test örnekleri. Rastgele seçilen bu verilerin herhangi bir biyolojik anlamı olmayacak olsa da yüksek düzeyde gürültü içeren bu verilerin, testleri en kötü durum senaryosuna sokacağı kesindir.
Performans Değerlendirmesi
İki Örnekli Test
Şekil 2'de, her adımın çalışma zamanı çizilmiştir. Test, yaklaşık 25 milyon okunan RNA-Seq verisi içeren iki örnekle iki hesaplama düğümünde gerçekleştirildi. Tophat adımı, bir işlem düğümündeki her örnek için paralel olarak başlar. Daha sonra, Tophat adımının tamamlanmasıyla Cufflinks başlar. Cuffmerge adımı, iki Cufflinks çalışmasından elde edilen sonuçları birleştirir. Her örnekteki gen ekspresyonlarını ölçmek için Cuffquant adımı eklenir ve sonuçlar Cuffdiff ve Cuffnorm adımlarında daha ayrıntılı olarak incelenir. Son adım olan CummeRbund, CummeRbund R-package'dan istatistiksel bir analiz adımıdır ve Şekil 2'de gösterildiği gibi görselleştirilmiş bir rapor oluşturur.

Şekil 2 İki örnekli Tuxedo hattı için toplam çalışma zamanı: SRR1608490 ve SRR934809.Şekil 2 İki örnekli Tuxedo hattı için toplam çalışma zamanı: SRR1608490 ve SRR934809.

Şekil 3, siyah renkle gösterilen diğer gen ekspresyonlarına kıyasla önemli ölçüde daha düşük p değerlerine (Y ekseni) sahip olan 8 örnek çalışmasından (her örnek 4 kopyadan oluşur) diferansiyel olarak ifade edilen genleri, kırmızı renkte göstermektedir1. X ekseni, 2 log tabanındaki kat değişiklikleridir ve her genin bu kat değişiklikleri, p değerlerine karşı çizilir. Daha fazla örnek, daha iyi bir gen ekspresyonu tahmini sağlayacaktır. Sağ üstteki grafik, örnek 1 ile karşılaştırmalı olarak örnek 2'deki gen ekspresyonlarıdır, sol alttaki grafik ise örnek 2'ye kıyasla örnek 1'deki gen ekspresyonlarıdır. Siyah noktalarla belirtilen gen ekspresyonları her iki örnekte de önemli ölçüde farklı değildir.


Şekil 3: Cuffdiff sonuçlarının yanardağ grafiğiŞekil 3 Cuffdiff sonuçlarının yanardağ grafiği
Verimlilik Testi - İkiden fazla örnek, biyolojik ve teknik kopyalar içeren tek hat
Tipik RNA-Seq çalışmaları, birden fazla örnekten (bazen 100'lerce farklı örnekten) normale karşı hastalıklı veya tedavi edilmemişe karşı tedavi edilmiş örneklerden oluşur. Bu örnekler, biyolojik yapılarından dolayı yüksek düzeyde gürültüye sahip olma eğilimindedir; bu nedenle analiz, güçlü bir veri ön işleme prosedürü gerektirir.
 
Bir PowerEdge C6420 kümesindeki 8 düğüm tarafından ne kadar veri işlenebildiğini görmek için çeşitli sayıda örneği (185 eşleştirilmiş uç okuma veri kümesinden seçilen tüm farklı RNA-Seq verileri) test ettik. Şekil 4'te gösterildiği gibi, örnek sayısı arttıkça 2, 4, 8, 16, 32 ve 64 örnekli çalışma süreleri katlanarak büyür. Cascade Lake 6248/LustreME4 depolaması ve güncelleştirilen hat ile Milyar Parça/Gün sayısı yaklaşık üç kat arttı.

Şekil 4 Cascade Lake 6248/LustreME4 ve Skylake 6148/H600 arasında 8x C6420 ile verimlilik karşılaştırmalarıŞekil 4 Cascade Lake 6248/LustreME4 ve Skylake 6148/H600 arasında 8x C6420 ile verimlilik karşılaştırmalarıCuffmerge adımı, örnek sayısı arttıkça yavaşlamazken Cuffdiff ve Cuffnorm adımları önemli ölçüde yavaşlar.

Özellikle çalışma zamanı katlanarak büyüdüğü için Cuffdiff adımı hat için bir darboğaz haline gelir (Şekil 5). Cuffnorm adımının çalışma zamanı Cuffdiff gibi katlanarak artsa da Cuffnorm adımının çalışma zamanı Cuffdiff adımının çalışma zamanı ile sınırlandığı için göz ardı edilebilir.  Cuffquant adımının eklenmesi, Cuffdiff adımının çalışma zamanını önemli ölçüde iyileştirdi. Cuffdiff adımında 30 saatlik çalışma zamanı azalması görüldü ve Cuffnorm, Cuffquant adımıyla 20 saat daha hızlı tamamlandı. Cuffdiff ve Cuffnorm adımları aynı anda başladığı için Cuffnorm adımından elde edilen performans kazancı göz ardı edilebiliyor.


Şekil 5 Cuffdiff ve Cuffnorm adımlarında çalışma zamanı artışı
Şekil 5 Cuffdiff ve Cuffnorm'da
çalışma zamanı artışıSonuç
Verimlilik testi sonuçları, Lustre depolamalı 8 düğümlü PowerEdge C6420'lerin, Şekil 1'de gösterilen Tuxedo hattı aracılığıyla her biri yaklaşık 50 milyon eşleştirilmiş okuma (25 MF) ile 64 örnekten yaklaşık 2,7 Milyar Parça işleyebildiğini göstermektedir. Tuxedo hattı diğer popüler hatlardan nispeten daha hızlı olduğundan, bir HPC sistemini doğru bir şekilde boyutlandırmak için bu sonuçları genelleştirmek veya kullanmak zordur. Ancak sonuçlar, HPC sisteminin boyutu hakkında kabaca bir tahminde bulunmaya yardımcı olabilir.
 
Kaynaklar
1. RNA-Seq Diferansiyel Gen Ekspresyonu: Temel Eğitim. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
2. HPC Yaşam Bilimleri için Dell EMC Ready Paketiyle RNA-Seq hattı karşılaştırmalı testi (İngilizce). [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
3. HPC Lustre Depolaması için Dell EMC Ready Solution (İngilizce). [Bağlantı, 07/2024 itibarıyla kaldırılmıştır]

Not: Bunlar, aralarında anlamlı bir ilişki olmaksızın bir örnek havuzundan rastgele seçilir.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。