Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution für HPC Life Sciences: Tuxedo Pipeline mit Cascade Lake CPU und Lustre/ME4 Refresh

Summary: Dieser Artikel behandelt das Whitepaper mit dem Titel "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline mit Cascade Lake CPU und Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Hinweis: Artikel von Kihoon Yoon vom HPC and AI Innovation Lab vom Dezember 2019
Neue Hardware und eine aktualisierte Pipeline zusammen erhöhen den Durchsatz um das Dreifache gegenüber der vorherigen Ready Solution.

Überblick
Die Genexpressionsanalyse ist ebenso wichtig wie die Identifizierung von Einzelnukleotid-Polymorphismus (SNP), Insertion/Deletion (Indel) oder chromosomaler Umstrukturierung. Schließlich hängen die gesamten physiologischen und biochemischen Vorgänge von den endgültigen Genexpressionsprodukten, den Proteinen, ab. Obwohl die meisten Säugetiere eine zusätzliche Kontrollschicht vor der Proteinexpression haben, hilft das Wissen, wie viele Transkripte in einem System vorhanden sind, um den biochemischen Status einer Zelle zu charakterisieren. Im Idealfall ermöglicht uns eine Technologie, die gesamten Proteine in einer Zelle zu quantifizieren, die sich im Fortschritt der Biowissenschaften erheblich auszeichnen könnte. Davon sind wir aber noch weit entfernt. 
Hier in diesem Blog testen wir eine beliebte RNA-Seq-Datenanalyse-Pipeline, die als Tuxedo-Pipeline bekannt ist (1). Die Tuxedo Pipeline SuiteDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. bietet eine Reihe von Werkzeugen zur Analyse einer Vielzahl von RNA-Seq-Daten, einschließlich Short-Read-Mapping, Identifizierung von Spleißverbindungen, Transkript- und Isoformerkennung, differentielle Expression, Visualisierungen und Metriken zur Qualitätskontrolle. Die detaillierten Schritte in der Pipeline sind in Abbildung 1 dargestellt. Diese aktualisierte Version der Tuxedo-Pipeline enthält den Cuffquant-Schritt im Vergleich zur alten Version, die im vorherigen Blog getestet wurde (2).

Abbildung 1 Aktualisierte Tuxedo Pipeline mit Cuffquant-SchrittAbbildung 1 Aktualisierte Tuxedo Pipeline mit Cuffquant-Schritt

Die Konfigurationen des Testclusters sind in Tabelle 1 zusammengefasst.

Tabelle 1: Getestete Compute-Node-Konfiguration

Dell EMC PowerEdge C6420

CPU

2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake)

RAM

12 x 16 GB @ 2933 MT/s

Betriebssystem

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS-Systemprofil

Performance-optimiert

Logischer Prozessor

Deaktiviert

Virtualisierungstechnologie

Deaktiviert

Zylinder

2.1.1

Fliege2

2.2.5

R,

3.6

Bioleiter-Kummerbund

2.26.0


Die getesteten Compute-Nodes wurden über Intel® Omni-Path (3) mit der Dell EMC Ready Solution for Lustre Storage verbunden. Die zusammenfassende Konfiguration des Speichers ist in Tabelle 2 aufgeführt.

Tabelle 2 Hardware- und Softwarespezifikationen der Lustre Storage-Lösung

Dell EMC Ready Solution für Lustre-Storage

Anzahl der Nodes

1 x Dell EMC PowerEdge R640 als Integrated Manager for Lustre (IML)
2 x Dell EMC PowerEdge R740 als Metadatenserver (MDS)
2 x Dell EMC PowerEdge R740 als Objektspeicherserver (OSS)

Prozessoren

IML-Server: Dual Intel Xeon Gold 5118 @ 2,3 GHz
MDS- und OSS-Server: Dual Intel Xeon Gold 6136 @ 3,00 GHz

Arbeitsspeicher

IML-Server: 12 x 8-GB-DDR4-RDIMMs mit 2.666 MT/s
MDS- und OSS-Server: 24 DDR4-RDIMMs mit 16 GiB und 2.666 MT/s

Externer Speicher
Controller

2 x Dell 12-Gbit/s-SAS-HBAs (auf jedem MDS)
4 x Dell 12-Gbit/s-SAS-HBAs (auf jedem Betriebssystem)

Objektspeicher
Einschlüsse

4 x ME4084 mit insgesamt 336 x 8-TB-NL-SAS-Festplattenlaufwerken mit 7.200 U/min

Metadatenspeicher
Anlage

1 x ME4024 mit 24 960-GB-SAS-SSDs. Unterstützt bis zu 4,688 Mrd. Dateien/Inodes

RAID-Controller

Duplex-RAID in den ME4084- und ME4024-Gehäusen

Betriebssystem

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Kernel-Version

3.10.0-862.el7.x86_64

BIOS-Version

1.4.5

Intel Omni-Path
IFS-Version

10.8.0.0

Lustre-Dateisystem
Version

2.10.4

IML-Version

4.0.7.0


Eine Leistungsstudie der RNA-Seq-Pipeline ist nicht trivial, da der Nature-Workflow nicht identische Eingabedateien erfordert. 185 RNA-Seq-Paired-End-Read-Daten werden aus einem öffentlichen DatenrepositoryDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. gesammeltaus. Alle Lesedatendateien enthalten etwa 25 Millionen Fragmente (MF) und weisen ähnliche Leselängen auf. Die Stichproben für einen Test werden nach dem Zufallsprinzip aus dem Pool von 185 Lesepaardateien ausgewählt. Obwohl diese zufällig ausgewählten Daten keine biologische Bedeutung haben, werden diese Daten mit hohem Rauschpegel die Tests auf das Worst-Case-Szenario bringen.
Leistungsbewertung
Test
mit zwei StichprobenIn Abbildung 2 ist die Laufzeit der einzelnen Schritte dargestellt. Der Test wurde in zwei Rechenknoten mit zwei Proben durchgeführt, die etwa 25 Millionen gelesene RNA-Seq-Daten enthielten. Der Tophat-Schritt wird für jedes Beispiel parallel auf einem Compute-Node gestartet. Daraufhin beginnt Cufflinks mit der Fertigstellung von Tophat. Der Schritt "Cuffmerge" kombiniert die Ergebnisse aus den beiden Manschettenknöpfen. Der Cuffquant-Schritt wird hinzugefügt, um die Genexpressionen in jeder Probe zu quantifizieren, und die Ergebnisse werden in den Cuffdiff- und Cuffnorm-Schritten weiter untersucht. Der letzte Schritt CummeRbund ist ein statistischer Analyseschritt aus dem CummeRbund R-Paket, der einen visualisierten Bericht erzeugt, wie in Abbildung 2 dargestellt.

Abbildung 2 Gesamtlaufzeit für die Tuxedo-Pipeline mit zwei Beispielen: SRR1608490 und SRR934809.Abbildung 2 Gesamtlaufzeit für die Tuxedo-Pipeline mit zwei Beispielen: SRR1608490 und SRR934809.

Abbildung 3 zeigt differentiell exprimierte Gene aus 8 Probenläufen (jede Probe besteht aus 4 Duplikaten) in Rot mit signifikant niedrigeren p-Werten (Y-Achse) im Vergleich zu anderen Genexpressionen, die schwarz dargestellt sind1. Anmelden Die X-Achse ist die Faltungsänderung in der logarithmischen Basis von 2, und diese Faltenänderungen jedes Gens werden gegen die p-Werte aufgetragen. Mehr Proben bringen eine bessere Schätzung der Genexpression. Das rechte obere Diagramm zeigt die Genexpressionen in Probe 2 im Vergleich zu Probe 1, während das linke untere Diagramm die Genexpressionen in Probe 1 im Vergleich zu Probe 2 zeigt. Die Genexpressionen in den schwarzen Punkten unterscheiden sich in beiden Proben nicht signifikant.


Abbildung 3 Vulkandiagramm der Cuffdiff-ErgebnisseAbbildung 3 Vulkandiagramm der Cuffdiff-Ergebnisse
Durchsatztest – Einzelne Pipeline mit mehr als zwei Proben, biologische und technische Duplikate
Typische RNA-Seq-Studien bestehen aus mehreren Proben, manchmal 100 verschiedener Proben, normale versus kranke oder unbehandelte versus behandelte Proben. Diese Proben neigen aufgrund ihrer biologischen Ursachen zu einem hohen Rauschpegel; Daher erfordert die Analyse ein intensives Datenvorverarbeitungsverfahren.
 
Wir haben eine unterschiedliche Anzahl von Proben getestet (alle unterschiedlichen RNA-Seq-Daten, die aus 185 Paired-End-Reads-Datensätzen ausgewählt wurden), um zu sehen, wie viele Daten von 8 Nodes in einem PowerEdge C6420-Cluster verarbeitet werden können. Wie in Abbildung 4 gezeigt, wachsen die Laufzeiten mit 2, 4, 8, 16, 32 und 64 Samples exponentiell, wenn die Anzahl der Samples zunimmt. Die Anzahl von Milliarden Fragmenten/Tag hat sich mit dem Storage Cascade Lake 6248/LustreME4 und der aktualisierten Pipeline fast verdreifacht.

Abbildung 4 Durchsatzvergleiche mit 8 C6420 zwischen Cascade Lake 6248/LustreME4 und Skylake 6148/H600Abbildung 4 Durchsatzvergleiche mit 8 C6420 zwischen Cascade Lake 6248/LustreME4 und Skylake 6148/H600

Der Cuffmerge-Schritt verlangsamt sich nicht, wenn die Anzahl der Proben wächst, während die Cuffdiff- und Cuffnorm-Schritte deutlich langsamer werden. Insbesondere der Cuffdiff-Schritt wird zu einem Engpass für die Pipeline, da die Laufzeit exponentiell wächst (Abbildung 5). Obwohl die Laufzeit von Cuffnorm wie bei Cuffdiff exponentiell ansteigt, ist sie ignorierbar, da die Laufzeit von Cuffnorm durch die Laufzeit von Cuffdiff begrenzt ist.  Durch das Hinzufügen des Cuffquant-Schritts wurde die Laufzeit von Cuffdiff erheblich verbessert. 30 Stunden Laufzeitverkürzung bei Cuffdiff-Schritt, und Cuffnorm 20 Stunden schneller mit Cuffquant-Schritt. Obwohl der Leistungsgewinn von Cuffnorm nicht sichtbar ist, da Cuffdiff und Cuffnorm gleichzeitig starten.


Abbildung 5 Laufzeitinkrementierung bei Cuffdiff und Cuffnorm
Abbildung 5 Laufzeitinkrementierung auf Cuffdiff und Cuffnorm
Fazit
Die Ergebnisse des Durchsatztests zeigen, dass PowerEdge C6420s mit 8 Nodes und Lustre-Storage rund 2,7 Milliarden Fragmente aus 64 Beispielen mit ~50 Millionen gekoppelten Lesevorgängen (jeweils 25 MF) über die in Abbildung 1 dargestellte Tuxedo-Pipeline verarbeiten kann. Da die Tuxedo-Pipeline relativ schnell ist als andere gängige Pipelines, ist es schwierig, diese Ergebnisse zu verallgemeinern oder für die genaue Dimensionierung eines HPC-Systems zu verwenden. Die Ergebnisse können jedoch helfen, eine grobe Abschätzung über die Größe des HPC-Systems vorzunehmen.
 
Betriebsmittel
1. Anmelden RNA-Seq differentielle Genexpression: Grundlegendes Tutorial. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
arabische Ziffer. RNA-Seq-Pipeline-Benchmark mit Dell EMC Ready Bundle für HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
3. Anmelden Dell EMC Ready Solution für HPC Lustre-Storage. [Link seit 07/2024]

Hinweis: Diese werden nach dem Zufallsprinzip aus einem Pool von Stichproben ausgewählt, ohne dass es sinnvolle Assoziationen zwischen ihnen gibt.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.