Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel dicembre 2019
Insieme, il nuovo hardware e la pipeline aggiornata aumentano il throughput 3 volte di più rispetto alla precedente Ready Solution.
Panoramica
L'analisi dell'espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'inserzione/delezione (indel) o della ristrutturazione cromosomica. Alla fine, tutti gli eventi fisiologici e biochimici dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare l'intera proteina in una cellula che potrebbe eccellere in modo significativo nel progresso delle scienze della vita; Tuttavia, siamo ben lontani dal raggiungerlo.
Qui, in questo blog, testiamo una popolare pipeline di analisi dei dati RNA-Seq nota come Tuxedo pipeline (1). La suite di pipeline Tuxedo offre una serie di strumenti per l'analisi di una varietà di dati RNA-Seq, tra cui la mappatura a lettura breve, l'identificazione delle giunzioni di giunzione, il rilevamento di trascritti e isoforme, l'espressione differenziale, le visualizzazioni e le metriche di controllo della qualità. I passaggi dettagliati della pipeline sono illustrati nella Figura 1. Questa versione aggiornata della pipeline Tuxedo include il passaggio di Cuffquant rispetto alla vecchia versione testata nel blog precedente (2).
Figura 1 Tuxedo Pipeline aggiornata con Cuffquant Step
Le configurazioni del cluster di test sono riepilogate nella Tabella 1.
Tabella 1 Configurazione dei nodi di elaborazione testata |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
Sistema operativo |
RHEL 7.6 |
Interconnessione |
Intel® Omni-Path |
Profilo di sistema nel BIOS |
Performance Optimized |
Logical Processor |
Disabled |
Tecnologia di virtualizzazione |
Disabled |
cappello a topo |
2.1.1 |
papillon2 |
2.2.5 |
R |
3.6 |
bioconduttore-fascia |
2.26.0 |
I nodi di elaborazione testati sono stati collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel® Omni-Path (3). La configurazione di riepilogo dello storage è elencata nella Tabella 2.
Tabella 2 Specifiche hardware e software della soluzione di storage Lustre |
|
Ready Solution Dell EMC per lo storage Lustre |
|
Numero di nodi |
1 Dell EMC PowerEdge R640 come Integrated Manager per Lustre (IML) |
Processori |
Server IML: Dual Intel Xeon Gold 5118 @ 2,3 GHz |
Memoria |
Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s |
Storage esterno |
2 HBA SAS Dell da 12 Gb/s (su ogni MDS) |
Storage a |
4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm |
Storage dei |
1 ME4024 con 24 SSD SAS da 960 GB. Supporta fino a 4,688 miliardi di file/inode |
Controller RAID |
RAID duplex nelle enclosure ME4084 e ME4024 |
Sistema operativo |
CentOS 7.5 x86_64 |
Versione del kernel |
3.10.0-862.el7.x86_64 |
Versione del BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
File system |
2.10.4 |
Versione IML |
4.0.7.0 |
Uno studio delle prestazioni della pipeline RNA-Seq non è banale perché il flusso di lavoro della natura richiede file di input non identici. I dati di lettura di 185 RNA-Seq paired-end vengono raccolti da un repository di dati pubblico. Tutti i file di dati letti contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. I campioni per un test sono stati selezionati in modo casuale dal pool di 185 file di lettura paired-end. Anche se questi dati selezionati casualmente non avranno alcun significato biologico, certamente questi dati con un alto livello di rumore metteranno i test sullo scenario peggiore.
Valutazione delle
prestazioniTest
a due campioniNella Figura 2 viene tracciato il runtime di ciascun passaggio. Il test è stato eseguito in due nodi di calcolo con due campioni contenenti circa 25 milioni di dati RNA-Seq letti. Il passaggio Tophat inizia per ogni campione su un nodo di calcolo in parallelo. Successivamente, i gemelli iniziano al completamento di Tophat. Il passo Cuffmerge combina i risultati delle due serie di gemelli. Il passo di Cuffquant viene aggiunto per quantificare l'espressione genica in ciascun campione e i risultati vengono esaminati ulteriormente nei passaggi di Cuffdiff e Cuffnorm. L'ultimo passaggio, CummeRbund è un passaggio di analisi statistica del pacchetto R di CummeRbund e genera un report visualizzato, come mostrato nella Figura 2.
Figura 2 Runtime totale per la pipeline Tuxedo con due esempi: SRR1608490 e SRR934809.
La Figura 3 mostra i geni espressi in modo differenziale da 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con valori p (asse Y) significativamente più bassi rispetto ad altre espressioni geniche illustrate in nero1. L'asse X rappresenta i cambiamenti di ripiegamento nella base logaritmica di 2 e questi cambiamenti di ripiegamento di ciascun gene sono tracciati rispetto ai valori p. Un maggior numero di campioni porterà a una migliore stima dell'espressione genica. Il grafico superiore destro è costituito dalle espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito dalle espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni.
Figura 3 Grafico del vulcano dei risultati
di CuffdiffTest di throughput: singola pipeline con più di due campioni, duplicati
biologici e tecniciGli studi tipici dell'RNA-Seq consistono in più campioni, a volte centinaia di campioni diversi, campioni normali rispetto a quelli patologici o non trattati rispetto a quelli trattati. Questi campioni tendono ad avere un alto livello di rumore a causa delle loro ragioni biologiche; Pertanto, l'analisi richiede una rigorosa procedura di pre-elaborazione dei dati.
Abbiamo testato un numero vario di campioni (tutti dati di RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere quanti dati possono essere elaborati da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i runtime con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale all'aumentare del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.
Figura 4 Confronti di throughput con 8 C6420 tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600
Il passo Cuffmerge non rallenta con l'aumentare del numero di campioni, mentre i passi Cuffdiff e Cuffnorm rallentano in modo significativo. In particolare, il gradino di Cuffdiff diventa un collo di bottiglia per la pipeline poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene la durata di Cuffnorm aumenti in modo esponenziale come quella di Cuffdiff, è ignorabile poiché la durata di Cuffnorm è limitata dalla durata di Cuffdiff. L'aggiunta di Cuffquant step ha migliorato significativamente il runtime di Cuffdiff. 30 ore di riduzione del tempo di esecuzione su Cuffdiff step e Cuffnorm completato 20 ore più velocemente con Cuffquant step. Anche se il guadagno di prestazioni di Cuffnorm non è visibile poiché Cuffdiff e Cuffnorm si avviano contemporaneamente.
Figura 5 Incremento di runtime su Cuffdiff e Cuffnorm
Conclusione
I risultati del test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con ~50 milioni di letture appaiate ciascuno (25 MF) tramite la pipeline Tuxedo illustrata nella Figura 1. Poiché la pipeline Tuxedo è relativamente più veloce di altre pipeline diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare un sistema HPC in modo accurato. Tuttavia, i risultati possono aiutare a effettuare una stima approssimativa delle dimensioni del sistema HPC.
Risorse
1. Espressione genica differenziale RNA-Seq: Esercitazione di base. [In linea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
numero arabo. Benchmark della pipeline RNA-Seq con Dell EMC Ready Bundle per l'HPC per le scienze della vita. [In linea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Ready Solution Dell EMC per lo storage HPC Lustre. [Link morto a partire dal 07/2024]
Nota: questi sono selezionati in modo casuale da un pool di campioni senza alcuna associazione significativa tra di loro.