Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4

Summary: Questo articolo illustra il white paper intitolato "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake e refresh Lustre/ME4".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel mese di dicembre 2019
Nuovi componenti hardware e una pipeline aggiornata insieme aumentano il throughput di tre volte rispetto alla precedente Ready Solution.

Panoramica
L'analisi di espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'aggiunta/eliminazione (Indel) o della ristrutturazione dei cromosomi. In sostanza, gli eventi fisiologici e biochimici nel loro complesso dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare le intere proteine in una cellula che potrebbero eccellere in modo significativo nel progresso delle scienze biologiche; tuttavia, siamo ben lungi dall'ottenere questo obiettivo. 
In questo blog testiamo una popolare pipeline di analisi dei dati RNA-Seq, nota come pipeline Tuxedo (1). La suite Tuxedo PipelineQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies. offre un set di strumenti per analizzare una varietà di dati RNA-Seq, tra cui mappatura di letture brevi, identificazione di splice junction, rilevamento di trascrizioni e isoforme, espressione differenziale, visualizzazioni e metriche di controllo qualità. I passaggi dettagliati nella pipeline sono illustrati nella Figura 1. Questa versione aggiornata di Tuxedo Pipeline include il passaggio Cuffquant rispetto alla versione meno recente testata nel blog precedente (2).

Figura 1 Tuxedo Pipeline aggiornata con il passaggio CuffquantFigura 1 Tuxedo Pipeline aggiornata con il passaggio Cuffquant

Le configurazioni del cluster di test sono riepilogate nella Tabella 1.

Tabella 1 Configurazione testata dei nodi di elaborazione

Dell EMC PowerEdge C6420

CPU

2 Xeon® Gold 6248 20c da 2,5 GHz (Cascade Lake)

RAM

12 da 16 GB a 2.933 MT/s

Sistema operativo

RHEL 7,6

Interconnessione

Intel® Omni-Path

Profilo di sistema nel BIOS

Performance Optimized

Logical Processor

Disabled

Tecnologia di virtualizzazione

Disabled

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


I nodi di elaborazione testati erano collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel® Omni-Path (3). Il riepilogo della configurazione dello storage è riportato nella Tabella 2.

Tabella 2 Specifiche hardware e software della soluzione di storage Lustre

Dell EMC Ready Solution for Lustre Storage

Numero di nodi

1 Dell EMC PowerEdge R640 come Integrated Manager for Lustre (IML)
2 Dell EMC PowerEdge R740 come Metadata Server (MDS)
2 Dell EMC PowerEdge R740 come Object Storage Server (OSS)

Processori

Server IML: 2 Intel Xeon Gold 5118 a 2,3 GHz
Server MDS e OSS: 2 Intel Xeon Gold 6136 a 3 GHz

Memoria

Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s
Server MDS e OSS: 24 RDIMM DDR4 da 16 GiB a 2.666 MT/s

Controller di storage
esterno

2 HBA SAS Dell da 12 GB/s (su ogni MDS)
4 HBA SAS Dell da 12 GB/s (su ogni OSS)

Enclosure di
storage a oggetti

4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm

Enclosure di
storage di metadati

1 ME4024 con 24 unità SSD SAS da 960 GB. Supporta fino a 4,688B file/inode

Controller RAID

RAID duplex nelle enclosure ME4084 e ME4024

Sistema operativo

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Versione del kernel

3.10.0-862.el7.x86_64

Versione del BIOS

1.4.5

Versione di IFS
Intel Omni-Path

10.8.0.0

Versione del
file system Lustre

2.10.4

Versione di IML

4.0.7.0


Uno studio delle prestazioni della pipeline RNA-Seq non è irrilevante, perché il flusso di lavoro della natura richiede file di input non identici. Vengono raccolti 185 dati di letture paired-end RNA-Seq da un repository di dati pubblicoQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies.. Tutti i file di dati delle letture contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. Vengono utilizzati come campioni di un test selezionati casualmente dal pool di 185 file di letture paired-end. Anche se questi dati selezionati casualmente non hanno alcun significato biologico, i dati con un elevato livello di rumore spostano i test sullo scenario peggiore.
Valutazione delle prestazioni
Test su due campioni
Nella Figura 2 è tracciato il tempo di esecuzione di ciascun passaggio. Il test è stato eseguito in due nodi di elaborazione con due campioni contenenti circa 25 milioni di dati di letture RNA-Seq. Il passaggio Tophat inizia per ogni campione su un nodo di elaborazione in parallelo. Cufflinks inizia quindi al completamento di Tophat. Il passaggio Cuffmerge combina i risultati delle due esecuzioni di Cufflinks. Il passaggio Cuffquant viene aggiunto per quantificare le espressioni geniche in ogni campione e i risultati vengono esaminati ulteriormente nei passaggi Cuffdiff e Cuffnorm. Ultimo passaggio, CummeRbund è un passaggio di analisi statistica dal pacchetto R CummeRbund e genera un report visualizzato come mostrato nella Figura 2.

Figura 2 Tempo di esecuzione totale per Tuxedo Pipeline con due campioni: SRR1608490 e SRR934809.Figura 2 Tempo di esecuzione totale per Tuxedo Pipeline con due campioni: SRR1608490 e SRR934809.

La Figura 3 mostra i geni espressi in modo differenziato dall'esecuzione su 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con p-value significativamente inferiori (asse Y) rispetto ad altre espressioni geniche illustrate in nero1. L'asse X rappresenta i fold change in log-base 2 e questi fold change di ogni gene vengono tracciati in base ai p-value. Un numero maggiore di campioni consente una valutazione più precisa dell'espressione genica. Il grafico superiore destro è costituito da espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito da espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni.


Figura 3 Grafico a vulcano dei risultati CuffdiffFigura 3 Grafico a vulcano dei risultati Cuffdiff
Test di throughput: singola pipeline con più di due campioni, duplicati biologici e tecnici
Gli studi RNA-Seq tipici sono costituiti da più campioni, a volte centinaia di campioni diversi, normali rispetto a malati o non trattati rispetto a trattati. Questi campioni tendono ad avere un elevato livello di rumore a causa delle loro ragioni biologiche; pertanto, l'analisi richiede una vigorosa procedura di preelaborazione dei dati.
 
Abbiamo testato vari numeri di campioni (tutti dati RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere la quantità di dati che è possibile elaborare da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i tempi di esecuzione con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale con l'aumento del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.

Figura 4 Confronti di throughput con 8 C6420s tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600Figura 4 Confronti di throughput con 8 C6420s tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600

Il passaggio Cuffmerge non rallenta poiché il numero di campioni cresce, mentre i passaggi Cuffdiff e Cuffnorm rallentano significativamente. In particolare, il passaggio Cuffdiff diventa un collo di bottiglia per la pipeline, poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene il tempo di esecuzione di Cuffnorm aumenti in modo esponenziale come Cuffdiff, non è rilevante, poiché è limitato dal tempo di esecuzione di Cuffdiff.  L'aggiunta del passaggio Cuffquant ha migliorato significativamente il tempo di esecuzione di Cuffdiff. 30 ore di riduzione del tempo di esecuzione sul passaggio Cuffdiff e Cuffnorm ha completato l'esecuzione 20 ore più velocemente con il passaggio Cuffquant, anche se il guadagno di Cuffnorm in termini di prestazioni non è visibile poiché Cuffdiff e Cuffnorm iniziano contemporaneamente.


Figura 5 Incremento del tempo di esecuzione su Cuffdiff e Cuffnorm
Figura 5 Incremento del tempo di esecuzione su Cuffdiff e Cuffnorm
Conclusioni
I risultati dei test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con circa 50 milioni di letture paired-end (25 MF) tramite Tuxedo Pipeline nella Figura 1. Poiché Tuxedo Pipeline è relativamente più veloce rispetto ad altre pipeline più diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare accuratamente un sistema HPC. Tuttavia, i risultati possono aiutare a elaborare una stima approssimativa delle dimensioni del sistema HPC.
 
Risorse
 1. RNA-Seq Differential Gene Expression: Basic Tutorial. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Link inattivo a partire da 07/2024]

Nota: selezionati casualmente da un pool di campioni senza alcuna associazione significativa tra loro.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.