Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4

Summary: Questo articolo illustra il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel mese di dicembre 2019
Nuovi componenti hardware e una pipeline aggiornata insieme aumentano il throughput di tre volte rispetto alla precedente Ready Solution.

Panoramica
L'analisi di espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'aggiunta/eliminazione (Indel) o della ristrutturazione dei cromosomi. In sostanza, gli eventi fisiologici e biochimici nel loro complesso dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare le intere proteine in una cellula che potrebbero eccellere in modo significativo nel progresso delle scienze biologiche; tuttavia, siamo ben lungi dall'ottenere questo obiettivo.
In questo blog testiamo una popolare pipeline di analisi dei dati RNA-Seq, nota come pipeline Tuxedo (1). La suite Tuxedo Pipeline offre un set di strumenti per analizzare una varietà di dati RNA-Seq, tra cui mappatura di letture brevi, identificazione di splice junction, rilevamento di trascrizioni e isoforme, espressione differenziale, visualizzazioni e metriche di controllo qualità. I passaggi dettagliati nella pipeline sono illustrati nella Figura 1. Questa versione aggiornata di Tuxedo Pipeline include il passaggio Cuffquant rispetto alla versione meno recente testata nel blog precedente (2).

Figura 1 Tuxedo Pipeline aggiornata con il passaggio Cuffquant

Le configurazioni del cluster di test sono riepilogate nella Tabella 1.

Tabella 1 Configurazione testata dei nodi di elaborazione
Dell EMC PowerEdge C6420
CPU	2 Xeon® Gold 6248 20c da 2,5 GHz (Cascade Lake)
RAM	12 da 16 GB a 2.933 MT/s
Sistema operativo	RHEL 7,6
Interconnessione	Intel® Omni-Path
Profilo di sistema nel BIOS	Performance Optimized
Logical Processor	Disabled
Tecnologia di virtualizzazione	Disabled
tophat	2.1.1
bowtie2	2.2.5
R	3.6
bioconductor-cummerbund	2.26.0

I nodi di elaborazione testati erano collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel^® Omni-Path (3). Il riepilogo della configurazione dello storage è riportato nella Tabella 2.

Tabella 2 Specifiche hardware e software della soluzione di storage Lustre
Dell EMC Ready Solution for Lustre Storage
Numero di nodi	1 Dell EMC PowerEdge R640 come Integrated Manager for Lustre (IML) 2 Dell EMC PowerEdge R740 come Metadata Server (MDS) 2 Dell EMC PowerEdge R740 come Object Storage Server (OSS)
Processori	Server IML: 2 Intel Xeon Gold 5118 a 2,3 GHz Server MDS e OSS: 2 Intel Xeon Gold 6136 a 3 GHz
Memoria	Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s Server MDS e OSS: 24 RDIMM DDR4 da 16 GiB a 2.666 MT/s
Controller di storage esterno	2 HBA SAS Dell da 12 GB/s (su ogni MDS) 4 HBA SAS Dell da 12 GB/s (su ogni OSS)
Enclosure di storage a oggetti	4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm
Enclosure di storage di metadati	1 ME4024 con 24 unità SSD SAS da 960 GB. Supporta fino a 4,688B file/inode
Controller RAID	RAID duplex nelle enclosure ME4084 e ME4024
Sistema operativo	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versione del kernel	3.10.0-862.el7.x86_64
Versione del BIOS	1.4.5
Versione di IFS Intel Omni-Path	10.8.0.0
Versione del file system Lustre	2.10.4
Versione di IML	4.0.7.0

Uno studio delle prestazioni della pipeline RNA-Seq non è irrilevante, perché il flusso di lavoro della natura richiede file di input non identici. Vengono raccolti 185 dati di letture paired-end RNA-Seq da un repository di dati pubblico. Tutti i file di dati delle letture contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. Vengono utilizzati come campioni di un test selezionati casualmente dal pool di 185 file di letture paired-end. Anche se questi dati selezionati casualmente non hanno alcun significato biologico, i dati con un elevato livello di rumore spostano i test sullo scenario peggiore.
Valutazione delle prestazioni
Test su due campioni
Nella Figura 2 è tracciato il tempo di esecuzione di ciascun passaggio. Il test è stato eseguito in due nodi di elaborazione con due campioni contenenti circa 25 milioni di dati di letture RNA-Seq. Il passaggio Tophat inizia per ogni campione su un nodo di elaborazione in parallelo. Cufflinks inizia quindi al completamento di Tophat. Il passaggio Cuffmerge combina i risultati delle due esecuzioni di Cufflinks. Il passaggio Cuffquant viene aggiunto per quantificare le espressioni geniche in ogni campione e i risultati vengono esaminati ulteriormente nei passaggi Cuffdiff e Cuffnorm. Ultimo passaggio, CummeRbund è un passaggio di analisi statistica dal pacchetto R CummeRbund e genera un report visualizzato come mostrato nella Figura 2.

Figura 2 Tempo di esecuzione totale per Tuxedo Pipeline con due campioni: SRR1608490 e SRR934809. Figura 2 Tempo di esecuzione totale per Tuxedo Pipeline con due campioni: SRR1608490 e SRR934809.

La Figura 3 mostra i geni espressi in modo differenziato dall'esecuzione su 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con p-value significativamente inferiori (asse Y) rispetto ad altre espressioni geniche illustrate in nero 1. L'asse X rappresenta i fold change in log-base 2 e questi fold change di ogni gene vengono tracciati in base ai p-value. Un numero maggiore di campioni consente una valutazione più precisa dell'espressione genica. Il grafico superiore destro è costituito da espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito da espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni.

Figura 3 Grafico a vulcano dei risultati Cuffdiff
Test di throughput: singola pipeline con più di due campioni, duplicati biologici e tecnici
Gli studi RNA-Seq tipici sono costituiti da più campioni, a volte centinaia di campioni diversi, normali rispetto a malati o non trattati rispetto a trattati. Questi campioni tendono ad avere un elevato livello di rumore a causa delle loro ragioni biologiche; pertanto, l'analisi richiede una vigorosa procedura di preelaborazione dei dati.

Abbiamo testato vari numeri di campioni (tutti dati RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere la quantità di dati che è possibile elaborare da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i tempi di esecuzione con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale con l'aumento del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.

Figura 4 Confronti di throughput con 8 C6420s tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600

Il passaggio Cuffmerge non rallenta poiché il numero di campioni cresce, mentre i passaggi Cuffdiff e Cuffnorm rallentano significativamente. In particolare, il passaggio Cuffdiff diventa un collo di bottiglia per la pipeline, poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene il tempo di esecuzione di Cuffnorm aumenti in modo esponenziale come Cuffdiff, non è rilevante, poiché è limitato dal tempo di esecuzione di Cuffdiff. L'aggiunta del passaggio Cuffquant ha migliorato significativamente il tempo di esecuzione di Cuffdiff. 30 ore di riduzione del tempo di esecuzione sul passaggio Cuffdiff e Cuffnorm ha completato l'esecuzione 20 ore più velocemente con il passaggio Cuffquant, anche se il guadagno di Cuffnorm in termini di prestazioni non è visibile poiché Cuffdiff e Cuffnorm iniziano contemporaneamente.

Figura 5 Incremento del tempo di esecuzione su Cuffdiff e Cuffnorm
Figura 5 Incremento del tempo di esecuzione su Cuffdiff e Cuffnorm
Conclusioni
I risultati dei test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con circa 50 milioni di letture paired-end (25 MF) tramite Tuxedo Pipeline nella Figura 1. Poiché Tuxedo Pipeline è relativamente più veloce rispetto ad altre pipeline più diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare accuratamente un sistema HPC. Tuttavia, i risultati possono aiutare a elaborare una stima approssimativa delle dimensioni del sistema HPC.

Risorse
1. RNA-Seq Differential Gene Expression: Basic Tutorial. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Link inattivo a partire da 07/2024]

Nota: selezionati casualmente da un pool di campioni senza alcuna associazione significativa tra loro.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Article Number: 000124142

Article Type: How To

Last Modified: 25 Jul 2024

Version: 3

Check if your device is covered by Support Services.

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4

Summary: Questo articolo illustra il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4".

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4

Summary: Questo articolo illustra il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4".

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services