Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

HPC Yaşam Bilimleri için Dell EMC Ready Çözümü: Cascade Lake CPU ve Lustre/ME4 Refresh ile Smokin Boru Hattı

Summary: Bu makale, "HPC Yaşam Bilimleri için Dell EMC Ready Solution: Cascade Lake CPU ve Lustre/ME4 Refresh ile Smokin Boru Hattı".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Not: HPC ve AI Innovation Lab'den Kihoon Yoon tarafından Aralık 2019'da
yazılan makaleYeni donanım ve güncelleştirilmiş ardışık düzen birlikte, önceki Hazır Çözüme göre üretilen işi 3 kat artırır.

Genel bakış
Gen ekspresyon analizi, Tek Nükleotid Polimorfizmi (SNP), ekleme/silme (indel) veya kromozomal yeniden yapılanmanın tanımlanması kadar önemlidir. Sonunda, tüm fizyolojik ve biyokimyasal olaylar, nihai gen ekspresyon ürünlerine, proteinlere bağlıdır. Çoğu memeli, protein ekspresyonundan önce ek bir kontrol katmanına sahip olsa da, bir sistemde kaç tane transkript bulunduğunu bilmek, bir hücrenin biyokimyasal durumunu karakterize etmeye yardımcı olur. İdeal olarak, bir teknoloji, Yaşam Biliminin ilerlemesinde önemli ölçüde başarılı olabilecek bir hücredeki tüm proteinleri ölçmemizi sağlar; Ancak, bunu başarmaktan çok uzağız. 
Burada, bu blogda, Smokin boru hattı olarak bilinen popüler bir RNA-Seq veri analizi boru hattını test ediyoruz (1). Smokin boru hattı paketiBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. çeşitli RNA-Seq verilerini analiz etmek için bir dizi araç sunar, kısa okuma haritalama, ekleme bağlantılarının tanımlanması, transkript ve izoform algılama, diferansiyel ifade, görselleştirmeler, ve kalite kontrol metrikleri dahil. Boru hattındaki ayrıntılı adımlar Şekil 1'de gösterilmektedir. Smokin boru hattının bu güncellenmiş sürümü, önceki blogda test edilen eski sürümle karşılaştırıldığında Cuffquant adımını içerir (2).

Şekil 1 Cuffquant Step ile Güncellenmiş Smokin Boru HattıŞekil 1 Cuffquant Step

ile Güncellenmiş Smokin Boru HattıTest kümesinin konfigürasyonları Tablo 1'de özetlenmiştir.

Tablo 1: Test edilen bilgi işlem düğümü yapılandırması

Dell EMC PowerEdge C6420

CPU

2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

İşletim Sistemi

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS Sistem Profili

Optimize Edilmiş Performans

Mantıksal İşlemci

Disabled

Sanallaştırma Teknolojisi

Disabled

Şapka

2.1.1

Papyon2

2.2.5

R

3.6

biyoiletken-küme

2.26.0


Test edilen bilgi işlem düğümleri, Intel® Omni-Path (3) aracılığıyla Lustre Storage için Dell EMC Ready Solution'a bağlandı. Depolamanın özet yapılandırması Tablo 2'de listelenmiştir.

Tablo 2 Lustre Depolama Çözümü donanım ve yazılım özellikleri

Lustre Storage için Dell EMC Hazır Çözüm

Düğüm sayısı

1x Lustre (IML) için Entegre Yönetici olarak Dell EMC PowerEdge R640
Meta Veri Sunucusu (MDS) olarak 2x Dell EMC PowerEdge R740
Nesne Depolama Sunucusu (OSS) olarak 2x Dell EMC PowerEdge R740

İşlemciler

IML sunucusu: Çift Intel Xeon Gold 5118 @ 2,3 GHz
MDS ve OSS sunucuları: Çift Intel Xeon Gold 6136 @ 3,00 GHz

Bellek

IML sunucusu: 12 x 8 GB 2.666 MT/sn DDR4 RDIMM
MDS ve OSS sunucuları: 24 x 16 GiB 2.666 MT/sn DDR4 RDIMM

Harici depolama
Denetleyici

2 x Dell 12 Gb/sn SAS HBA (her bir MDS de)
4 x Dell 12 Gb/sn SAS HBA (her bir OSS de)

Nesne depolama
Kutuları

Toplam 336 x 8 TB NL 7,2K RPM SAS HDD ile 4x ME4084

Meta veri depolama
Muhafaza

24x 960 GB SAS SSD ile 1x ME4024. 4.688B'ye kadar dosyayı/inode'u destekler

RAID denetleyicileri

ME4084 ve ME4024 muhafazalarında çift yönlü RAID

İşletim sistemi

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Kernel sürümü

3.10.0-862.el7.x86_64

BIOS sürümü

1.4.5

Intel Omni-Path
IFS sürümü

10.8.0.0

Lustre dosya sistemi
Sürüm

2.10.4

IML sürümü

4.0.7.0


RNA-Seq boru hattının performans çalışması önemsiz değildir çünkü doğa iş akışı özdeş olmayan girdi dosyaları gerektirir. 185 RNA-Seq eşleştirilmiş uç okuma verileri, halka açık bir veri havuzundanBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. toplanır'dir. Tüm okunan veri dosyaları yaklaşık 25 Milyon Parça (MF) içerir ve benzer okuma uzunluklarına sahiptir. 185 eşleştirilmiş uç okuma dosyası havuzundan rastgele seçilen bir test örnekleri. Rastgele seçilen bu verilerin herhangi bir biyolojik anlamı olmayacak olsa da, kesinlikle yüksek düzeyde gürültü içeren bu veriler, testleri en kötü durum senaryosuna sokacaktır.
Performans Değerlendirmesi
İki Örneklem Testi
Şekil 2'de, her adımın çalışma zamanı çizilir. Test, yaklaşık 25 milyon okunmuş RNA-Seq verisi içeren iki örnekle iki hesaplama düğümünde çalıştırıldı. Tophat adımı, bir işlem düğümündeki her örnek için paralel olarak başlar. Daha sonra, Kol Düğmeleri Tophat'ın tamamlanmasıyla başlar. Kol Düğmesi adımı, iki Kol Düğmesi çalışmasından elde edilen sonuçları birleştirir. Her numunedeki gen ekspresyonlarını ölçmek için Cuffquant adımı eklenir ve sonuçlar Cuffdiff ve Cuffnorm adımlarında daha ayrıntılı olarak incelenir. Son adım, CummeRbund, CummeRbund R-paketinden istatistiksel bir analiz adımıdır ve Şekil 2'de gösterildiği gibi görselleştirilmiş bir rapor oluşturur.

Şekil 2 İki örnekli Smokin boru hattı için toplam çalışma zamanı: SRR1608490 ve SRR934809.Şekil 2 İki örnekli Smokin boru hattı için toplam çalışma zamanı: SRR1608490 ve SRR934809.

Şekil 3, 8 örnek çalışmasından (her örnek 4 kopyadan oluşur) diferansiyel olarak ifade edilen genleri, siyah renkle gösterilen diğer gen ifadelerine kıyasla önemli ölçüde daha düşük p değerlerine (Y ekseni) sahip kırmızı renkte göstermektedir1. X ekseni, 2'nin log tabanındaki kat değişiklikleridir ve her genin bu kat değişiklikleri p değerlerine karşı çizilir. Daha fazla örnek, daha iyi bir gen ekspresyonu tahmini getirecektir. Sağ üst grafik, örnek 1 ile karşılaştırmalarda örnek 2'deki gen ifadeleridir, sol alt grafik ise örnek 2'ye kıyasla örnek 1'deki gen ifadeleridir. Siyah noktalardaki gen ifadeleri her iki örnekte de önemli ölçüde farklı değildir.


Şekil 3: Cuffdiff sonuçlarının volkan grafiğiŞekil 3: Cuffdiff sonuçlarının
volkan grafiğiVerim Testi – İkiden fazla numune içeren tek boru hattı, biyolojik ve teknik kopyalar
Tipik RNA-Seq çalışmaları, birden fazla örnekten, bazen 100'lerce farklı örnekten, normale karşı hastalıktan veya tedavi edilmemişe karşı tedavi edilmiş örneklerden oluşur. Bu örnekler, biyolojik nedenlerinden dolayı yüksek düzeyde gürültüye sahip olma eğilimindedir; Bu nedenle analiz, güçlü bir veri ön işleme prosedürü gerektirir.
 
Bir PowerEdge C6420 kümesindeki 8 düğüm tarafından ne kadar veri işlenebildiğini görmek için çeşitli sayıda örneği (185 çift uçlu okuma veri kümesinden seçilen tüm farklı RNA-Seq verileri) test ettik. Şekil 4'te gösterildiği gibi, örnek sayısı arttıkça 2, 4, 8, 16, 32 ve 64 örnekli çalışma süreleri katlanarak büyür. Cascade Lake 6248/LustreME4 depolaması ve güncellenen boru hattı ile Milyar Parça/Gün sayısı yaklaşık üç kat arttı.

Şekil 4 Cascade Lake 6248/LustreME4 ve Skylake 6148/H600 arasında 8x C6420 ile üretilen iş karşılaştırmalarıŞekil 4 Cascade Lake 6248/LustreME4 ve Skylake 6148/H600 arasında 8x C6420 ile üretilen iş karşılaştırmalarıCuffmerge adımı, numune sayısı arttıkça yavaşlamazken Cuffdiff ve Cuffnorm adımları önemli ölçüde yavaşlar.

Özellikle, çalışma süresi katlanarak büyüdüğü için Cuffdiff adımı boru hattı için bir darboğaz haline gelir (Şekil 5). Cuffnorm'un çalışma zamanı Cuffdiff gibi katlanarak artsa da, Cuffnorm'un çalışma zamanı Cuffdiff'in çalışma zamanı ile sınırlandığı için göz ardı edilebilir.  Cuffquant adımının eklenmesi, Cuffdiff'in çalışma süresini önemli ölçüde iyileştirdi. Cuffdiff adımında 30 saatlik çalışma süresi azalması ve Cuffnorm, Cuffquant adımıyla 20 saat daha hızlı tamamladı. Cuffdiff ve Cuffnorm aynı anda başladığı için Cuffnorm'dan performans kazancı görünmese de.


Şekil 5 Cuffdiff ve Cuffnorm'da çalışma zamanı artışı
Şekil 5 Cuffdiff ve Cuffnorm'da
çalışma zamanı artışıSonuç
Verim testi sonuçları, Lustre depolamalı 8 düğümlü PowerEdge C6420'lerin, Şekil 1'de gösterilen Smokin boru hattı aracılığıyla her biri ~50 milyon çift okuma (25 MF) ile 64 örnekten yaklaşık 2,7 Milyar Parça işleyebildiğini göstermektedir. Smokin boru hattı diğer popüler boru hatlarından nispeten daha hızlı olduğundan, bir HPC sistemini doğru bir şekilde boyutlandırmak için bu sonuçları genelleştirmek veya kullanmak zordur. Ancak sonuçlar, HPC sisteminin boyutu hakkında kabaca bir tahminde bulunmaya yardımcı olabilir.
 
Kaynaklar
1. RNA-Seq Diferansiyel Gen Ekspresyonu: Temel eğitim. [İnternet üzerinden] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
2. HPC Yaşam Bilimleri için Dell EMC Ready Bundle ile RNA-Seq ardışık düzen karşılaştırması. [İnternet üzerinden] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
3. HPC Lustre Depolaması için Dell EMC Hazır Çözüm. [Bağlantı 07/2024 itibariyle ölü]

Not: Bunlar, aralarında anlamlı bir ilişki olmaksızın bir örnek havuzundan rastgele seçilir.

Article Properties


Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Last Published Date

25 Jul 2024

Version

3

Article Type

How To