Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Ready Solution Dell EMC per l'HPC per le scienze della vita: Tuxedo Pipeline con CPU Cascade Lake e aggiornamento Lustre/ME4

Summary: Questo articolo tratta il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel dicembre 2019
Insieme, il nuovo hardware e la pipeline aggiornata aumentano il throughput 3 volte di più rispetto alla precedente Ready Solution.

Panoramica
L'analisi dell'espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'inserzione/delezione (indel) o della ristrutturazione cromosomica. Alla fine, tutti gli eventi fisiologici e biochimici dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare l'intera proteina in una cellula che potrebbe eccellere in modo significativo nel progresso delle scienze della vita; Tuttavia, siamo ben lontani dal raggiungerlo. 
Qui, in questo blog, testiamo una popolare pipeline di analisi dei dati RNA-Seq nota come Tuxedo pipeline (1). La suiteQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies. di pipeline Tuxedo offre una serie di strumenti per l'analisi di una varietà di dati RNA-Seq, tra cui la mappatura a lettura breve, l'identificazione delle giunzioni di giunzione, il rilevamento di trascritti e isoforme, l'espressione differenziale, le visualizzazioni e le metriche di controllo della qualità. I passaggi dettagliati della pipeline sono illustrati nella Figura 1. Questa versione aggiornata della pipeline Tuxedo include il passaggio di Cuffquant rispetto alla vecchia versione testata nel blog precedente (2).

Figura 1 Pipeline Tuxedo aggiornata con Cuffquant StepFigura 1 Tuxedo Pipeline aggiornata con Cuffquant Step

Le configurazioni del cluster di test sono riepilogate nella Tabella 1.

Tabella 1 Configurazione dei nodi di elaborazione testata

Dell EMC PowerEdge C6420

CPU

2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

Sistema operativo

RHEL 7.6

Interconnessione

Intel® Omni-Path

Profilo di sistema nel BIOS

Performance Optimized

Logical Processor

Disabled

Tecnologia di virtualizzazione

Disabled

cappello a topo

2.1.1

papillon2

2.2.5

R

3.6

bioconduttore-fascia

2.26.0


I nodi di elaborazione testati sono stati collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel® Omni-Path (3). La configurazione di riepilogo dello storage è elencata nella Tabella 2.

Tabella 2 Specifiche hardware e software della soluzione di storage Lustre

Ready Solution Dell EMC per lo storage Lustre

Numero di nodi

1 Dell EMC PowerEdge R640 come Integrated Manager per Lustre (IML)
2 Dell EMC PowerEdge R740 come server di metadati (MDS)
2 Dell EMC PowerEdge R740 come server di object storage (OSS)

Processori

Server IML: Dual Intel Xeon Gold 5118 @ 2,3 GHz
Server MDS e OSS: Dual Intel Xeon Gold 6136 @ 3,00 GHz

Memoria

Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s
Server MDS e OSS: 24 RDIMM DDR4 da 16 GiB a 2.666 MT/s

Storage esterno
Controller

2 HBA SAS Dell da 12 Gb/s (su ogni MDS)
4 HBA SAS Dell da 12 Gb/s (su ogni OSS)

Storage a
oggettiCustodie

4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm

Storage dei
metadatirecinto

1 ME4024 con 24 SSD SAS da 960 GB. Supporta fino a 4,688 miliardi di file/inode

Controller RAID

RAID duplex nelle enclosure ME4084 e ME4024

Sistema operativo

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Versione del kernel

3.10.0-862.el7.x86_64

Versione del BIOS

1.4.5

Intel Omni-Path
Versione IFS

10.8.0.0

File system
LustreVersione

2.10.4

Versione IML

4.0.7.0


Uno studio delle prestazioni della pipeline RNA-Seq non è banale perché il flusso di lavoro della natura richiede file di input non identici. I dati di lettura di 185 RNA-Seq paired-end vengono raccolti da un repositoryQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies. di dati pubblico. Tutti i file di dati letti contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. I campioni per un test sono stati selezionati in modo casuale dal pool di 185 file di lettura paired-end. Anche se questi dati selezionati casualmente non avranno alcun significato biologico, certamente questi dati con un alto livello di rumore metteranno i test sullo scenario peggiore.
Valutazione delle
prestazioniTest
a due campioniNella Figura 2 viene tracciato il runtime di ciascun passaggio. Il test è stato eseguito in due nodi di calcolo con due campioni contenenti circa 25 milioni di dati RNA-Seq letti. Il passaggio Tophat inizia per ogni campione su un nodo di calcolo in parallelo. Successivamente, i gemelli iniziano al completamento di Tophat. Il passo Cuffmerge combina i risultati delle due serie di gemelli. Il passo di Cuffquant viene aggiunto per quantificare l'espressione genica in ciascun campione e i risultati vengono esaminati ulteriormente nei passaggi di Cuffdiff e Cuffnorm. L'ultimo passaggio, CummeRbund è un passaggio di analisi statistica del pacchetto R di CummeRbund e genera un report visualizzato, come mostrato nella Figura 2.

Figura 2 Runtime totale per la pipeline Tuxedo con due esempi: SRR1608490 e SRR934809.Figura 2 Runtime totale per la pipeline Tuxedo con due esempi: SRR1608490 e SRR934809.

La Figura 3 mostra i geni espressi in modo differenziale da 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con valori p (asse Y) significativamente più bassi rispetto ad altre espressioni geniche illustrate in nero1. L'asse X rappresenta i cambiamenti di ripiegamento nella base logaritmica di 2 e questi cambiamenti di ripiegamento di ciascun gene sono tracciati rispetto ai valori p. Un maggior numero di campioni porterà a una migliore stima dell'espressione genica. Il grafico superiore destro è costituito dalle espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito dalle espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni.


Figura 3 Grafico del vulcano dei risultati di CuffdiffFigura 3 Grafico del vulcano dei risultati
di CuffdiffTest di throughput: singola pipeline con più di due campioni, duplicati
biologici e tecniciGli studi tipici dell'RNA-Seq consistono in più campioni, a volte centinaia di campioni diversi, campioni normali rispetto a quelli patologici o non trattati rispetto a quelli trattati. Questi campioni tendono ad avere un alto livello di rumore a causa delle loro ragioni biologiche; Pertanto, l'analisi richiede una rigorosa procedura di pre-elaborazione dei dati.
 
Abbiamo testato un numero vario di campioni (tutti dati di RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere quanti dati possono essere elaborati da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i runtime con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale all'aumentare del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.

Figura 4 Confronto del throughput con 8 C6420 tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600Figura 4 Confronti di throughput con 8 C6420 tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600

Il passo Cuffmerge non rallenta con l'aumentare del numero di campioni, mentre i passi Cuffdiff e Cuffnorm rallentano in modo significativo. In particolare, il gradino di Cuffdiff diventa un collo di bottiglia per la pipeline poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene la durata di Cuffnorm aumenti in modo esponenziale come quella di Cuffdiff, è ignorabile poiché la durata di Cuffnorm è limitata dalla durata di Cuffdiff.  L'aggiunta di Cuffquant step ha migliorato significativamente il runtime di Cuffdiff. 30 ore di riduzione del tempo di esecuzione su Cuffdiff step e Cuffnorm completato 20 ore più velocemente con Cuffquant step. Anche se il guadagno di prestazioni di Cuffnorm non è visibile poiché Cuffdiff e Cuffnorm si avviano contemporaneamente.


Figura 5 Incremento di runtime su Cuffdiff e Cuffnorm
Figura 5 Incremento di runtime su Cuffdiff e Cuffnorm
Conclusione
I risultati del test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con ~50 milioni di letture appaiate ciascuno (25 MF) tramite la pipeline Tuxedo illustrata nella Figura 1. Poiché la pipeline Tuxedo è relativamente più veloce di altre pipeline diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare un sistema HPC in modo accurato. Tuttavia, i risultati possono aiutare a effettuare una stima approssimativa delle dimensioni del sistema HPC.
 
Risorse
1. Espressione genica differenziale RNA-Seq: Esercitazione di base. [In linea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.
numero arabo. Benchmark della pipeline RNA-Seq con Dell EMC Ready Bundle per l'HPC per le scienze della vita. [In linea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.
3. Ready Solution Dell EMC per lo storage HPC Lustre. [Link morto a partire dal 07/2024]

Nota: questi sono selezionati in modo casuale da un pool di campioni senza alcuna associazione significativa tra di loro.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.