Ready Solution Dell EMC per l'HPC per le scienze della vita: Tuxedo Pipeline con CPU Cascade Lake e aggiornamento Lustre/ME4

Summary: Questo articolo tratta il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel dicembre 2019
Insieme, il nuovo hardware e la pipeline aggiornata aumentano il throughput 3 volte di più rispetto alla precedente Ready Solution.

Panoramica
L'analisi dell'espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'inserzione/delezione (indel) o della ristrutturazione cromosomica. Alla fine, tutti gli eventi fisiologici e biochimici dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare l'intera proteina in una cellula che potrebbe eccellere in modo significativo nel progresso delle scienze della vita; Tuttavia, siamo ben lontani dal raggiungerlo.
Qui, in questo blog, testiamo una popolare pipeline di analisi dei dati RNA-Seq nota come Tuxedo pipeline (1). La suite di pipeline Tuxedo offre una serie di strumenti per l'analisi di una varietà di dati RNA-Seq, tra cui la mappatura a lettura breve, l'identificazione delle giunzioni di giunzione, il rilevamento di trascritti e isoforme, l'espressione differenziale, le visualizzazioni e le metriche di controllo della qualità. I passaggi dettagliati della pipeline sono illustrati nella Figura 1. Questa versione aggiornata della pipeline Tuxedo include il passaggio di Cuffquant rispetto alla vecchia versione testata nel blog precedente (2).

Figura 1 Pipeline Tuxedo aggiornata con Cuffquant Step Figura 1 Tuxedo Pipeline aggiornata con Cuffquant Step

Le configurazioni del cluster di test sono riepilogate nella Tabella 1.

Tabella 1 Configurazione dei nodi di elaborazione testata
Dell EMC PowerEdge C6420
CPU	2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16GB @2933 MT/s
Sistema operativo	RHEL 7.6
Interconnessione	Intel® Omni-Path
Profilo di sistema nel BIOS	Performance Optimized
Logical Processor	Disabled
Tecnologia di virtualizzazione	Disabled
cappello a topo	2.1.1
papillon2	2.2.5
R	3.6
bioconduttore-fascia	2.26.0

I nodi di elaborazione testati sono stati collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel^® Omni-Path (3). La configurazione di riepilogo dello storage è elencata nella Tabella 2.

Tabella 2 Specifiche hardware e software della soluzione di storage Lustre
Ready Solution Dell EMC per lo storage Lustre
Numero di nodi	1 Dell EMC PowerEdge R640 come Integrated Manager per Lustre (IML) 2 Dell EMC PowerEdge R740 come server di metadati (MDS) 2 Dell EMC PowerEdge R740 come server di object storage (OSS)
Processori	Server IML: Dual Intel Xeon Gold 5118 @ 2,3 GHz Server MDS e OSS: Dual Intel Xeon Gold 6136 @ 3,00 GHz
Memoria	Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s Server MDS e OSS: 24 RDIMM DDR4 da 16 GiB a 2.666 MT/s
Storage esterno Controller	2 HBA SAS Dell da 12 Gb/s (su ogni MDS) 4 HBA SAS Dell da 12 Gb/s (su ogni OSS)
Storage a oggettiCustodie	4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm
Storage dei metadatirecinto	1 ME4024 con 24 SSD SAS da 960 GB. Supporta fino a 4,688 miliardi di file/inode
Controller RAID	RAID duplex nelle enclosure ME4084 e ME4024
Sistema operativo	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versione del kernel	3.10.0-862.el7.x86_64
Versione del BIOS	1.4.5
Intel Omni-Path Versione IFS	10.8.0.0
File system LustreVersione	2.10.4
Versione IML	4.0.7.0

Uno studio delle prestazioni della pipeline RNA-Seq non è banale perché il flusso di lavoro della natura richiede file di input non identici. I dati di lettura di 185 RNA-Seq paired-end vengono raccolti da un repository di dati pubblico. Tutti i file di dati letti contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. I campioni per un test sono stati selezionati in modo casuale dal pool di 185 file di lettura paired-end. Anche se questi dati selezionati casualmente non avranno alcun significato biologico, certamente questi dati con un alto livello di rumore metteranno i test sullo scenario peggiore.
Valutazione delle
prestazioniTest
a due campioniNella Figura 2 viene tracciato il runtime di ciascun passaggio. Il test è stato eseguito in due nodi di calcolo con due campioni contenenti circa 25 milioni di dati RNA-Seq letti. Il passaggio Tophat inizia per ogni campione su un nodo di calcolo in parallelo. Successivamente, i gemelli iniziano al completamento di Tophat. Il passo Cuffmerge combina i risultati delle due serie di gemelli. Il passo di Cuffquant viene aggiunto per quantificare l'espressione genica in ciascun campione e i risultati vengono esaminati ulteriormente nei passaggi di Cuffdiff e Cuffnorm. L'ultimo passaggio, CummeRbund è un passaggio di analisi statistica del pacchetto R di CummeRbund e genera un report visualizzato, come mostrato nella Figura 2.

Figura 2 Runtime totale per la pipeline Tuxedo con due esempi: SRR1608490 e SRR934809. Figura 2 Runtime totale per la pipeline Tuxedo con due esempi: SRR1608490 e SRR934809.

La Figura 3 mostra i geni espressi in modo differenziale da 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con valori p (asse Y) significativamente più bassi rispetto ad altre espressioni geniche illustrate in nero 1. L'asse X rappresenta i cambiamenti di ripiegamento nella base logaritmica di 2 e questi cambiamenti di ripiegamento di ciascun gene sono tracciati rispetto ai valori p. Un maggior numero di campioni porterà a una migliore stima dell'espressione genica. Il grafico superiore destro è costituito dalle espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito dalle espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni.

Figura 3 Grafico del vulcano dei risultati
di CuffdiffTest di throughput: singola pipeline con più di due campioni, duplicati
biologici e tecniciGli studi tipici dell'RNA-Seq consistono in più campioni, a volte centinaia di campioni diversi, campioni normali rispetto a quelli patologici o non trattati rispetto a quelli trattati. Questi campioni tendono ad avere un alto livello di rumore a causa delle loro ragioni biologiche; Pertanto, l'analisi richiede una rigorosa procedura di pre-elaborazione dei dati.

Abbiamo testato un numero vario di campioni (tutti dati di RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere quanti dati possono essere elaborati da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i runtime con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale all'aumentare del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.

Figura 4 Confronto del throughput con 8 C6420 tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600 Figura 4 Confronti di throughput con 8 C6420 tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600

Il passo Cuffmerge non rallenta con l'aumentare del numero di campioni, mentre i passi Cuffdiff e Cuffnorm rallentano in modo significativo. In particolare, il gradino di Cuffdiff diventa un collo di bottiglia per la pipeline poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene la durata di Cuffnorm aumenti in modo esponenziale come quella di Cuffdiff, è ignorabile poiché la durata di Cuffnorm è limitata dalla durata di Cuffdiff. L'aggiunta di Cuffquant step ha migliorato significativamente il runtime di Cuffdiff. 30 ore di riduzione del tempo di esecuzione su Cuffdiff step e Cuffnorm completato 20 ore più velocemente con Cuffquant step. Anche se il guadagno di prestazioni di Cuffnorm non è visibile poiché Cuffdiff e Cuffnorm si avviano contemporaneamente.

Figura 5 Incremento di runtime su Cuffdiff e Cuffnorm
Figura 5 Incremento di runtime su Cuffdiff e Cuffnorm
Conclusione
I risultati del test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con ~50 milioni di letture appaiate ciascuno (25 MF) tramite la pipeline Tuxedo illustrata nella Figura 1. Poiché la pipeline Tuxedo è relativamente più veloce di altre pipeline diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare un sistema HPC in modo accurato. Tuttavia, i risultati possono aiutare a effettuare una stima approssimativa delle dimensioni del sistema HPC.

Risorse
1. Espressione genica differenziale RNA-Seq: Esercitazione di base. [In linea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
numero arabo. Benchmark della pipeline RNA-Seq con Dell EMC Ready Bundle per l'HPC per le scienze della vita. [In linea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Ready Solution Dell EMC per lo storage HPC Lustre. [Link morto a partire dal 07/2024]

Nota: questi sono selezionati in modo casuale da un pool di campioni senza alcuna associazione significativa tra di loro.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Article Number: 000124142

Article Type: How To

Last Modified: 25 Jul 2024

Version: 3

Check if your device is covered by Support Services.

Ready Solution Dell EMC per l'HPC per le scienze della vita: Tuxedo Pipeline con CPU Cascade Lake e aggiornamento Lustre/ME4

Summary: Questo articolo tratta il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e Lustre/ME4 Refresh".

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Ready Solution Dell EMC per l'HPC per le scienze della vita: Tuxedo Pipeline con CPU Cascade Lake e aggiornamento Lustre/ME4

Summary: Questo articolo tratta il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e Lustre/ME4 Refresh".

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services