Hinweis: Artikel von Kihoon Yoon vom HPC and AI Innovation Lab vom Dezember 2019
Neue Hardware und eine aktualisierte Pipeline zusammen erhöhen den Durchsatz um das Dreifache gegenüber der vorherigen Ready Solution.
Überblick
Die Genexpressionsanalyse ist ebenso wichtig wie die Identifizierung von Einzelnukleotid-Polymorphismus (SNP), Insertion/Deletion (Indel) oder chromosomaler Umstrukturierung. Schließlich hängen die gesamten physiologischen und biochemischen Vorgänge von den endgültigen Genexpressionsprodukten, den Proteinen, ab. Obwohl die meisten Säugetiere eine zusätzliche Kontrollschicht vor der Proteinexpression haben, hilft das Wissen, wie viele Transkripte in einem System vorhanden sind, um den biochemischen Status einer Zelle zu charakterisieren. Im Idealfall ermöglicht uns eine Technologie, die gesamten Proteine in einer Zelle zu quantifizieren, die sich im Fortschritt der Biowissenschaften erheblich auszeichnen könnte. Davon sind wir aber noch weit entfernt.
Hier in diesem Blog testen wir eine beliebte RNA-Seq-Datenanalyse-Pipeline, die als Tuxedo-Pipeline bekannt ist (1). Die Tuxedo Pipeline Suite bietet eine Reihe von Werkzeugen zur Analyse einer Vielzahl von RNA-Seq-Daten, einschließlich Short-Read-Mapping, Identifizierung von Spleißverbindungen, Transkript- und Isoformerkennung, differentielle Expression, Visualisierungen und Metriken zur Qualitätskontrolle. Die detaillierten Schritte in der Pipeline sind in Abbildung 1 dargestellt. Diese aktualisierte Version der Tuxedo-Pipeline enthält den Cuffquant-Schritt im Vergleich zur alten Version, die im vorherigen Blog getestet wurde (2).
Abbildung 1 Aktualisierte Tuxedo Pipeline mit Cuffquant-Schritt
Die Konfigurationen des Testclusters sind in Tabelle 1 zusammengefasst.
Tabelle 1: Getestete Compute-Node-Konfiguration |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 GB @ 2933 MT/s |
Betriebssystem |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-Systemprofil |
Performance-optimiert |
Logischer Prozessor |
Deaktiviert |
Virtualisierungstechnologie |
Deaktiviert |
Zylinder |
2.1.1 |
Fliege2 |
2.2.5 |
R, |
3.6 |
Bioleiter-Kummerbund |
2.26.0 |
Die getesteten Compute-Nodes wurden über Intel® Omni-Path (3) mit der Dell EMC Ready Solution for Lustre Storage verbunden. Die zusammenfassende Konfiguration des Speichers ist in Tabelle 2 aufgeführt.
Tabelle 2 Hardware- und Softwarespezifikationen der Lustre Storage-Lösung |
|
Dell EMC Ready Solution für Lustre-Storage |
|
Anzahl der Nodes |
1 x Dell EMC PowerEdge R640 als Integrated Manager for Lustre (IML) |
Prozessoren |
IML-Server: Dual Intel Xeon Gold 5118 @ 2,3 GHz |
Arbeitsspeicher |
IML-Server: 12 x 8-GB-DDR4-RDIMMs mit 2.666 MT/s |
Externer Speicher |
2 x Dell 12-Gbit/s-SAS-HBAs (auf jedem MDS) |
Objektspeicher |
4 x ME4084 mit insgesamt 336 x 8-TB-NL-SAS-Festplattenlaufwerken mit 7.200 U/min |
Metadatenspeicher |
1 x ME4024 mit 24 960-GB-SAS-SSDs. Unterstützt bis zu 4,688 Mrd. Dateien/Inodes |
RAID-Controller |
Duplex-RAID in den ME4084- und ME4024-Gehäusen |
Betriebssystem |
CentOS 7.5 x86_64 |
Kernel-Version |
3.10.0-862.el7.x86_64 |
BIOS-Version |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre-Dateisystem |
2.10.4 |
IML-Version |
4.0.7.0 |
Eine Leistungsstudie der RNA-Seq-Pipeline ist nicht trivial, da der Nature-Workflow nicht identische Eingabedateien erfordert. 185 RNA-Seq-Paired-End-Read-Daten werden aus einem öffentlichen Datenrepository gesammeltaus. Alle Lesedatendateien enthalten etwa 25 Millionen Fragmente (MF) und weisen ähnliche Leselängen auf. Die Stichproben für einen Test werden nach dem Zufallsprinzip aus dem Pool von 185 Lesepaardateien ausgewählt. Obwohl diese zufällig ausgewählten Daten keine biologische Bedeutung haben, werden diese Daten mit hohem Rauschpegel die Tests auf das Worst-Case-Szenario bringen.
Leistungsbewertung
Test
mit zwei StichprobenIn Abbildung 2 ist die Laufzeit der einzelnen Schritte dargestellt. Der Test wurde in zwei Rechenknoten mit zwei Proben durchgeführt, die etwa 25 Millionen gelesene RNA-Seq-Daten enthielten. Der Tophat-Schritt wird für jedes Beispiel parallel auf einem Compute-Node gestartet. Daraufhin beginnt Cufflinks mit der Fertigstellung von Tophat. Der Schritt "Cuffmerge" kombiniert die Ergebnisse aus den beiden Manschettenknöpfen. Der Cuffquant-Schritt wird hinzugefügt, um die Genexpressionen in jeder Probe zu quantifizieren, und die Ergebnisse werden in den Cuffdiff- und Cuffnorm-Schritten weiter untersucht. Der letzte Schritt CummeRbund ist ein statistischer Analyseschritt aus dem CummeRbund R-Paket, der einen visualisierten Bericht erzeugt, wie in Abbildung 2 dargestellt.
Abbildung 2 Gesamtlaufzeit für die Tuxedo-Pipeline mit zwei Beispielen: SRR1608490 und SRR934809.
Abbildung 3 zeigt differentiell exprimierte Gene aus 8 Probenläufen (jede Probe besteht aus 4 Duplikaten) in Rot mit signifikant niedrigeren p-Werten (Y-Achse) im Vergleich zu anderen Genexpressionen, die schwarz dargestellt sind1. Anmelden Die X-Achse ist die Faltungsänderung in der logarithmischen Basis von 2, und diese Faltenänderungen jedes Gens werden gegen die p-Werte aufgetragen. Mehr Proben bringen eine bessere Schätzung der Genexpression. Das rechte obere Diagramm zeigt die Genexpressionen in Probe 2 im Vergleich zu Probe 1, während das linke untere Diagramm die Genexpressionen in Probe 1 im Vergleich zu Probe 2 zeigt. Die Genexpressionen in den schwarzen Punkten unterscheiden sich in beiden Proben nicht signifikant.
Abbildung 3 Vulkandiagramm der Cuffdiff-Ergebnisse
Durchsatztest – Einzelne Pipeline mit mehr als zwei Proben, biologische und technische Duplikate
Typische RNA-Seq-Studien bestehen aus mehreren Proben, manchmal 100 verschiedener Proben, normale versus kranke oder unbehandelte versus behandelte Proben. Diese Proben neigen aufgrund ihrer biologischen Ursachen zu einem hohen Rauschpegel; Daher erfordert die Analyse ein intensives Datenvorverarbeitungsverfahren.
Wir haben eine unterschiedliche Anzahl von Proben getestet (alle unterschiedlichen RNA-Seq-Daten, die aus 185 Paired-End-Reads-Datensätzen ausgewählt wurden), um zu sehen, wie viele Daten von 8 Nodes in einem PowerEdge C6420-Cluster verarbeitet werden können. Wie in Abbildung 4 gezeigt, wachsen die Laufzeiten mit 2, 4, 8, 16, 32 und 64 Samples exponentiell, wenn die Anzahl der Samples zunimmt. Die Anzahl von Milliarden Fragmenten/Tag hat sich mit dem Storage Cascade Lake 6248/LustreME4 und der aktualisierten Pipeline fast verdreifacht.
Abbildung 4 Durchsatzvergleiche mit 8 C6420 zwischen Cascade Lake 6248/LustreME4 und Skylake 6148/H600
Der Cuffmerge-Schritt verlangsamt sich nicht, wenn die Anzahl der Proben wächst, während die Cuffdiff- und Cuffnorm-Schritte deutlich langsamer werden. Insbesondere der Cuffdiff-Schritt wird zu einem Engpass für die Pipeline, da die Laufzeit exponentiell wächst (Abbildung 5). Obwohl die Laufzeit von Cuffnorm wie bei Cuffdiff exponentiell ansteigt, ist sie ignorierbar, da die Laufzeit von Cuffnorm durch die Laufzeit von Cuffdiff begrenzt ist. Durch das Hinzufügen des Cuffquant-Schritts wurde die Laufzeit von Cuffdiff erheblich verbessert. 30 Stunden Laufzeitverkürzung bei Cuffdiff-Schritt, und Cuffnorm 20 Stunden schneller mit Cuffquant-Schritt. Obwohl der Leistungsgewinn von Cuffnorm nicht sichtbar ist, da Cuffdiff und Cuffnorm gleichzeitig starten.
Abbildung 5 Laufzeitinkrementierung auf Cuffdiff und Cuffnorm
Fazit
Die Ergebnisse des Durchsatztests zeigen, dass PowerEdge C6420s mit 8 Nodes und Lustre-Storage rund 2,7 Milliarden Fragmente aus 64 Beispielen mit ~50 Millionen gekoppelten Lesevorgängen (jeweils 25 MF) über die in Abbildung 1 dargestellte Tuxedo-Pipeline verarbeiten kann. Da die Tuxedo-Pipeline relativ schnell ist als andere gängige Pipelines, ist es schwierig, diese Ergebnisse zu verallgemeinern oder für die genaue Dimensionierung eines HPC-Systems zu verwenden. Die Ergebnisse können jedoch helfen, eine grobe Abschätzung über die Größe des HPC-Systems vorzunehmen.
Betriebsmittel
1. Anmelden RNA-Seq differentielle Genexpression: Grundlegendes Tutorial. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
arabische Ziffer. RNA-Seq-Pipeline-Benchmark mit Dell EMC Ready Bundle für HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Anmelden Dell EMC Ready Solution für HPC Lustre-Storage. [Link seit 07/2024]
Hinweis: Diese werden nach dem Zufallsprinzip aus einem Pool von Stichproben ausgewählt, ohne dass es sinnvolle Assoziationen zwischen ihnen gibt.