Nota: Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel mese di dicembre 2019
Nuovi componenti hardware e una pipeline aggiornata insieme aumentano il throughput di tre volte rispetto alla precedente Ready Solution.
Panoramica
L'analisi di espressione genica è importante quanto l'identificazione del polimorfismo a singolo nucleotide (SNP), dell'aggiunta/eliminazione (Indel) o della ristrutturazione dei cromosomi. In sostanza, gli eventi fisiologici e biochimici nel loro complesso dipendono dai prodotti finali dell'espressione genica, le proteine. Sebbene la maggior parte dei mammiferi abbia un ulteriore strato di controllo prima dell'espressione proteica, sapere quante trascrizioni esistono in un sistema aiuta a caratterizzare lo stato biochimico di una cellula. Idealmente, una tecnologia ci consente di quantificare le intere proteine in una cellula che potrebbero eccellere in modo significativo nel progresso delle scienze biologiche; tuttavia, siamo ben lungi dall'ottenere questo obiettivo.
In questo blog testiamo una popolare pipeline di analisi dei dati RNA-Seq, nota come pipeline Tuxedo (1). La suite Tuxedo Pipeline offre un set di strumenti per analizzare una varietà di dati RNA-Seq, tra cui mappatura di letture brevi, identificazione di splice junction, rilevamento di trascrizioni e isoforme, espressione differenziale, visualizzazioni e metriche di controllo qualità. I passaggi dettagliati nella pipeline sono illustrati nella Figura 1. Questa versione aggiornata di Tuxedo Pipeline include il passaggio Cuffquant rispetto alla versione meno recente testata nel blog precedente (2).
Figura 1 Tuxedo Pipeline aggiornata con il passaggio Cuffquant
Le configurazioni del cluster di test sono riepilogate nella Tabella 1.
Tabella 1 Configurazione testata dei nodi di elaborazione |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 Xeon® Gold 6248 20c da 2,5 GHz (Cascade Lake) |
RAM |
12 da 16 GB a 2.933 MT/s |
Sistema operativo |
RHEL 7,6 |
Interconnessione |
Intel® Omni-Path |
Profilo di sistema nel BIOS |
Performance Optimized |
Logical Processor |
Disabled |
Tecnologia di virtualizzazione |
Disabled |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
I nodi di elaborazione testati erano collegati a Dell EMC Ready Solution for Lustre Storage tramite Intel® Omni-Path (3). Il riepilogo della configurazione dello storage è riportato nella Tabella 2.
Tabella 2 Specifiche hardware e software della soluzione di storage Lustre |
|
Dell EMC Ready Solution for Lustre Storage |
|
Numero di nodi |
1 Dell EMC PowerEdge R640 come Integrated Manager for Lustre (IML) |
Processori |
Server IML: 2 Intel Xeon Gold 5118 a 2,3 GHz |
Memoria |
Server IML: 12 RDIMM DDR4 da 8 GB a 2.666 MT/s |
Controller di storage |
2 HBA SAS Dell da 12 GB/s (su ogni MDS) |
Enclosure di |
4 ME4084 con un totale di 336 HDD SAS NL da 8 TB a 7.200 rpm |
Enclosure di |
1 ME4024 con 24 unità SSD SAS da 960 GB. Supporta fino a 4,688B file/inode |
Controller RAID |
RAID duplex nelle enclosure ME4084 e ME4024 |
Sistema operativo |
CentOS 7.5 x86_64 |
Versione del kernel |
3.10.0-862.el7.x86_64 |
Versione del BIOS |
1.4.5 |
Versione di IFS |
10.8.0.0 |
Versione del |
2.10.4 |
Versione di IML |
4.0.7.0 |
Uno studio delle prestazioni della pipeline RNA-Seq non è irrilevante, perché il flusso di lavoro della natura richiede file di input non identici. Vengono raccolti 185 dati di letture paired-end RNA-Seq da un repository di dati pubblico. Tutti i file di dati delle letture contengono circa 25 milioni di frammenti (MF) e hanno lunghezze di lettura simili. Vengono utilizzati come campioni di un test selezionati casualmente dal pool di 185 file di letture paired-end. Anche se questi dati selezionati casualmente non hanno alcun significato biologico, i dati con un elevato livello di rumore spostano i test sullo scenario peggiore.
Valutazione delle prestazioni
Test su due campioni
Nella Figura 2 è tracciato il tempo di esecuzione di ciascun passaggio. Il test è stato eseguito in due nodi di elaborazione con due campioni contenenti circa 25 milioni di dati di letture RNA-Seq. Il passaggio Tophat inizia per ogni campione su un nodo di elaborazione in parallelo. Cufflinks inizia quindi al completamento di Tophat. Il passaggio Cuffmerge combina i risultati delle due esecuzioni di Cufflinks. Il passaggio Cuffquant viene aggiunto per quantificare le espressioni geniche in ogni campione e i risultati vengono esaminati ulteriormente nei passaggi Cuffdiff e Cuffnorm. Ultimo passaggio, CummeRbund è un passaggio di analisi statistica dal pacchetto R CummeRbund e genera un report visualizzato come mostrato nella Figura 2.Figura 2 Tempo di esecuzione totale per Tuxedo Pipeline con due campioni: SRR1608490 e SRR934809.
La Figura 3 mostra i geni espressi in modo differenziato dall'esecuzione su 8 campioni (ogni campione è costituito da 4 duplicati) in rosso con p-value significativamente inferiori (asse Y) rispetto ad altre espressioni geniche illustrate in nero1. L'asse X rappresenta i fold change in log-base 2 e questi fold change di ogni gene vengono tracciati in base ai p-value. Un numero maggiore di campioni consente una valutazione più precisa dell'espressione genica. Il grafico superiore destro è costituito da espressioni geniche nel campione 2 rispetto al campione 1, mentre il grafico inferiore sinistro è costituito da espressioni geniche nel campione 1 rispetto al campione 2. Le espressioni geniche nei punti neri non sono significativamente diverse in entrambi i campioni. Figura 3 Grafico a vulcano dei risultati Cuffdiff
Test di throughput: singola pipeline con più di due campioni, duplicati biologici e tecnici
Gli studi RNA-Seq tipici sono costituiti da più campioni, a volte centinaia di campioni diversi, normali rispetto a malati o non trattati rispetto a trattati. Questi campioni tendono ad avere un elevato livello di rumore a causa delle loro ragioni biologiche; pertanto, l'analisi richiede una vigorosa procedura di preelaborazione dei dati.
Abbiamo testato vari numeri di campioni (tutti dati RNA-Seq diversi selezionati da 185 set di dati di letture paired-end) per vedere la quantità di dati che è possibile elaborare da 8 nodi in un cluster PowerEdge C6420. Come illustrato nella Figura 4, i tempi di esecuzione con 2, 4, 8, 16, 32 e 64 campioni crescono in modo esponenziale con l'aumento del numero di campioni. Il numero di miliardi di frammenti al giorno è aumentato di quasi tre volte con lo storage Cascade Lake 6248/LustreME4 e la pipeline aggiornata.Figura 4 Confronti di throughput con 8 C6420s tra Cascade Lake 6248/LustreME4 e Skylake 6148/H600
Il passaggio Cuffmerge non rallenta poiché il numero di campioni cresce, mentre i passaggi Cuffdiff e Cuffnorm rallentano significativamente. In particolare, il passaggio Cuffdiff diventa un collo di bottiglia per la pipeline, poiché il tempo di esecuzione cresce in modo esponenziale (Figura 5). Sebbene il tempo di esecuzione di Cuffnorm aumenti in modo esponenziale come Cuffdiff, non è rilevante, poiché è limitato dal tempo di esecuzione di Cuffdiff. L'aggiunta del passaggio Cuffquant ha migliorato significativamente il tempo di esecuzione di Cuffdiff. 30 ore di riduzione del tempo di esecuzione sul passaggio Cuffdiff e Cuffnorm ha completato l'esecuzione 20 ore più velocemente con il passaggio Cuffquant, anche se il guadagno di Cuffnorm in termini di prestazioni non è visibile poiché Cuffdiff e Cuffnorm iniziano contemporaneamente.
Figura 5 Incremento del tempo di esecuzione su Cuffdiff e Cuffnorm
Conclusioni
I risultati dei test di throughput mostrano che PowerEdge C6420s a 8 nodi con storage Lustre è in grado di elaborare circa 2,7 miliardi di frammenti da 64 campioni con circa 50 milioni di letture paired-end (25 MF) tramite Tuxedo Pipeline nella Figura 1. Poiché Tuxedo Pipeline è relativamente più veloce rispetto ad altre pipeline più diffuse, è difficile generalizzare o utilizzare questi risultati per dimensionare accuratamente un sistema HPC. Tuttavia, i risultati possono aiutare a elaborare una stima approssimativa delle dimensioni del sistema HPC.
Risorse
1. RNA-Seq Differential Gene Expression: Basic Tutorial. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Link inattivo a partire da 07/2024]
Nota: selezionati casualmente da un pool di campioni senza alcuna associazione significativa tra loro.