Hinweis: Artikel von Kihoon Yoon vom HPC and AI Innovation Lab vom Dezember 2019
Neue Hardware und eine aktualisierte Pipeline erhöhen zusammen den Durchsatz um das Dreifache gegenüber der vorherigen Ready Solution.
Überblick
Die Analyse der Genexpression ist ebenso wichtig wie die Identifizierung von Einzelnukleotid-Polymorphismus (Single Nucleotide Polymorphism, SNP), Insertion/Deletion (Indel) oder chromosomale Umstrukturierung. Schließlich hängen die gesamten physiologischen und biochemischen Vorgänge von den endgültigen Produkten der Genexpression, den Proteinen, ab. Obwohl die meisten Säugetiere eine zusätzliche Kontrollschicht vor der Proteinexpression haben, hilft das Wissen, wie viele Transkripte in einem System vorhanden sind, um den biochemischen Status einer Zelle zu charakterisieren. Im Idealfall ermöglicht uns eine Technologie, die gesamten Proteine in einer Zelle zu quantifizieren, was den Fortschritt der Biowissenschaften erheblich vorantreiben könnte. Davon sind wir jedoch noch weit entfernt.
In diesem Blog testen wir eine gängige RNS-Seq-Datenanalyse-Pipeline, die als Tuxedo-Pipeline bekannt ist (1). Die Tuxedo Pipeline Suite bietet eine Reihe von Werkzeugen zur Analyse einer Vielzahl von RNS-Seq-Daten, einschließlich Short-Read-Mapping, Identifizierung von Spleißverbindungen, Transkript- und Isoform-Erkennung, differentielle Expression, Visualisierungen und Metriken zur Qualitätskontrolle. Die detaillierten Schritte in der Pipeline sind in Abbildung 1 dargestellt. Diese aktualisierte Version der Tuxedo-Pipeline enthält im Vergleich zur alten Version, die im vorherigen Blog getestet wurde, den Cuffquant-Schritt (2).
Abbildung 1: Aktualisierte Tuxedo-Pipeline mit Cuffquant-Schritt
Die Konfigurationen des Test-Clusters sind in Tabelle 1 zusammengefasst.
Tabelle 1: Getestete Compute-Node-Konfiguration |
|
Dell EMC Power Edge C6420 |
|
CPU |
2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 GB mit 2.933 MT/s |
Betriebssystem |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-Systemprofil |
Performance-optimiert |
Logischer Prozessor |
Deaktiviert |
Virtualisierungstechnologie |
Deaktiviert |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R, |
3.6 |
bioconductor-cummerbund |
2.26.0 |
Die getesteten Compute-Nodes wurden über Intel® Omni-Path mit der Dell EMC Ready Solution for Lustre Storage verbunden (3). Die Konfiguration des Storage ist in Tabelle 2 zusammengefasst.
Tabelle 2: Hardware- und Softwarespezifikationen der Lustre Storage-Lösung |
|
Dell EMC Ready Solution for Lustre Storage |
|
Anzahl der Nodes |
1 x Dell EMC PowerEdge R640 als integrierter Manager für Lustre (IML) |
Prozessoren |
IML-Server: Dual Intel Xeon Gold 5118 mit 2,3 GHz |
Arbeitsspeicher |
IML-Server: 12 x DDR4-RDIMMs mit 8 GB und 2.666 MT/s |
Externe Storage- |
2 x Dell SAS-HBAs mit 12 Gbit/s (auf jedem MDS) |
Objektspeicher- |
4 x ME4084 mit insgesamt 336 x NL-SAS-Festplattenlaufwerken mit 8 TB und 7.200 U/min |
Metadatenspeicher- |
1 x ME4024 mit 24 x SAS-SSDs mit 960 GB. Unterstützt bis zu 4,688 Mrd. Dateien/Inodes |
RAID-Controller |
Duplex-RAID in den ME4084- und ME4024-Gehäusen |
Betriebssystem |
CentOS 7.5 x86_64 |
Kernel-Version |
3.10.0-862.el7.x86_64 |
BIOS-Version |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre-Dateisystem- |
2.10.4 |
IML-Version |
4.0.7.0 |
Eine Performancestudie der RNS-Seq-Pipeline ist nicht trivial, da der Nature-Workflow nicht identische Eingabedateien erfordert. Es wurden 185 RNS-Seq-Paired-End-Lesedaten aus einem öffentlichen Daten-Repository entnommen . Alle gelesenen Datendateien enthalten ca. 25 Millionen Fragmente (MF) mit ähnlichen Leselängen. Die Proben für einen Test werden nach dem Zufallsprinzip aus dem Pool mit 185 Paired-End-Lesedateien ausgewählt. Obwohl diese zufällig ausgewählten Daten keine biologische Bedeutung haben, ermöglichen diese Daten mit hohem Rauschen Tests in einem Worst-Case-Szenario.
Performancebewertung
Test mit zwei Proben
In Abbildung 2 ist die Laufzeit der einzelnen Schritte dargestellt. Der Test wurde mit zwei Compute-Nodes und zwei Proben durchgeführt, die etwa 25 Millionen gelesene RNS-Seq-Daten enthalten. Der Tophat-Schritt wird für jede Probe parallel auf einem Compute-Node gestartet. Mit dem Abschluss von Tophat startet Cufflinks. Der Cuffmerge-Schritt kombiniert die Ergebnisse aus den beiden Cufflinks-Läufen. Der Cuffquant-Schritt wird hinzugefügt, um die Genexpressionen in jeder Probe zu quantifizieren, und die Ergebnisse werden in den Cuffdiff- und Cuffnorm-Schritten weiter untersucht. Der letzte Schritt, CummeRbund, ist ein statistischer Analyseschritt aus dem CummeRbund-R-Paket, der einen visualisierten Bericht erzeugt, wie in Abbildung 2 dargestellt.Abbildung 2: Gesamtlaufzeit der Tuxedo-Pipeline mit zwei Proben: SRR1608490 und SRR934809.
Abbildung 3 zeigt differentiell exprimierte Gene aus 8 Probenläufen (jede Probe besteht aus 4 Duplikaten) in Rot mit signifikant niedrigeren p-Werten (Y-Achse) im Vergleich zu anderen Genexpressionen, die in Schwarz dargestellt sind 1. Die X-Achse zeigt die Faltenänderungen mit einer logarithmischen Basis von 2 und diese Faltenänderungen jedes Gens sind gegen die p-Werte aufgetragen. Mehr Proben ermöglichen eine bessere Schätzung der Genexpression. Das rechte obere Diagramm zeigt die Genexpressionen in Probe 2 im Vergleich zu Probe 1, während das linke untere Diagramm die Genexpressionen in Probe 1 im Vergleich zu Probe 2 zeigt. Die Genexpressionen, die mit schwarzen Punkten dargestellt sind, unterscheiden sich in beiden Proben nicht signifikant. Abbildung 3: Vulkandiagramm der Cuffdiff-Ergebnisse
Durchsatztest – Einzelne Pipeline mit mehr als zwei Proben, biologische und technische Duplikate
RNS-Seq-Studien bestehen in der Regel aus mehreren Proben, manchmal hunderten verschiedenen Proben: normal versus krank oder unbehandelt versus behandelt. Diese Proben neigen aus biologischen Gründen zu starkem Rauschen. Daher ist für die Analyse eine gründliche Vorverarbeitung der Daten erforderlich.
Wir haben eine unterschiedliche Anzahl an Proben getestet (alle unterschiedliche RNS-Seq-Daten aus dem 185 Paired-End-Lesedatensatz), um zu ermitteln, wie viele Daten von 8 Nodes in einem PowerEdge C6420-Cluster verarbeitet werden können. Wie in Abbildung 4 gezeigt, steigen die Laufzeiten mit 2, 4, 8, 16, 32 und 64 Proben exponentiell an, wenn die Anzahl der Proben zunimmt. Die Anzahl von Milliarden Fragmenten/Tag hat sich mit dem Cascade Lake 6248/LustreME4-Storage und der aktualisierten Pipeline fast verdreifacht.Abbildung 4: Durchsatzvergleiche mit 8 C6420s zwischen Cascade Lake 6248/LustreME4 und Skylake 6148/H600
Der Cuffmerge-Schritt verlangsamt sich nicht, wenn die Anzahl der Proben zunimmt, während die Cuffdiff- und Cuffnorm-Schritte deutlich langsamer werden. Insbesondere der Cuffdiff-Schritt wird zu einem Engpass für die Pipeline, da die Laufzeit exponentiell ansteigt (Abbildung 5). Obwohl die Laufzeit von Cuffnorm wie bei Cuffdiff exponentiell ansteigt, ist sie ignorierbar, da die Laufzeit von Cuffnorm durch die Laufzeit von Cuffdiff begrenzt wird. Durch das Hinzufügen des Cuffquant-Schritts wurde die Laufzeit von Cuffdiff erheblich verbessert. 30 Stunden Laufzeitverkürzung bei Cuffdiff-Schritt und Cuffnorm 20 Stunden schneller dank Cuffquant-Schritt. Obwohl der Performancegewinn von Cuffnorm nicht sichtbar ist, da Cuffdiff und Cuffnorm gleichzeitig starten.
Abbildung 5: :Laufzeitsteigerung bei Cuffdiff und Cuffnorm
Fazit
Die Ergebnisse des Durchsatztests zeigen, dass PowerEdge C6420s mit 8 Nodes und Lustre-Storage rund 2,7 Milliarden Fragmente aus 64 Proben mit jeweils ~50 Millionen Paired-Lesevorgängen (25 MF) über die Tuxedo-Pipeline verarbeiten können, wie in Abbildung 1 dargestellt. Da die Tuxedo-Pipeline relativ schneller ist als andere gängige Pipelines, ist es schwierig, diese Ergebnisse zu verallgemeinern oder für die genaue Dimensionierung eines HPC-Systems zu verwenden. Die Ergebnisse können jedoch für eine grobe Schätzung der Größe des HPC-Systems verwendet werden.
Ressourcen
1. RNS-Seq differentielle Genexpression: Grundlegendes Tutorial: [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. RNS-Seq-Pipeline-Benchmark mit Dell EMC Ready Bundle for HPC Life Sciences [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage [Link seit 07/2024 tot]
Hinweis: Die Proben werden nach dem Zufallsprinzip aus einem Probenpool ausgewählt, ohne dass es einen sinnvollen Zusammenhang zwischen den Proben gibt.