Dell EMC Ready Solution für HPC Life Sciences: Tuxedo Pipeline mit Cascade Lake CPU und Lustre/ME4 Refresh

概要: Dieser Artikel behandelt das Whitepaper „Dell EMC Ready Solution for HPC Life Sciences: Tuxedo-Pipeline mit Cascade Lake CPU und Lustre/ME4-Aktualisierung“.

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Hinweis: Artikel von Kihoon Yoon vom HPC and AI Innovation Lab vom Dezember 2019
Neue Hardware und eine aktualisierte Pipeline erhöhen zusammen den Durchsatz um das Dreifache gegenüber der vorherigen Ready Solution.

Überblick
Die Analyse der Genexpression ist ebenso wichtig wie die Identifizierung von Einzelnukleotid-Polymorphismus (Single Nucleotide Polymorphism, SNP), Insertion/Deletion (Indel) oder chromosomale Umstrukturierung. Schließlich hängen die gesamten physiologischen und biochemischen Vorgänge von den endgültigen Produkten der Genexpression, den Proteinen, ab. Obwohl die meisten Säugetiere eine zusätzliche Kontrollschicht vor der Proteinexpression haben, hilft das Wissen, wie viele Transkripte in einem System vorhanden sind, um den biochemischen Status einer Zelle zu charakterisieren. Im Idealfall ermöglicht uns eine Technologie, die gesamten Proteine in einer Zelle zu quantifizieren, was den Fortschritt der Biowissenschaften erheblich vorantreiben könnte. Davon sind wir jedoch noch weit entfernt.
In diesem Blog testen wir eine gängige RNS-Seq-Datenanalyse-Pipeline, die als Tuxedo-Pipeline bekannt ist (1). Die Tuxedo Pipeline Suite bietet eine Reihe von Werkzeugen zur Analyse einer Vielzahl von RNS-Seq-Daten, einschließlich Short-Read-Mapping, Identifizierung von Spleißverbindungen, Transkript- und Isoform-Erkennung, differentielle Expression, Visualisierungen und Metriken zur Qualitätskontrolle. Die detaillierten Schritte in der Pipeline sind in Abbildung 1 dargestellt. Diese aktualisierte Version der Tuxedo-Pipeline enthält im Vergleich zur alten Version, die im vorherigen Blog getestet wurde, den Cuffquant-Schritt (2).

Abbildung 1: Aktualisierte Tuxedo-Pipeline mit Cuffquant-Schritt

Die Konfigurationen des Test-Clusters sind in Tabelle 1 zusammengefasst.

Tabelle 1: Getestete Compute-Node-Konfiguration
Dell EMC Power Edge C6420
CPU	2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake)
RAM	12 x 16 GB mit 2.933 MT/s
Betriebssystem	RHEL 7.6
Interconnect	Intel® Omni-Path
BIOS-Systemprofil	Performance-optimiert
Logischer Prozessor	Deaktiviert
Virtualisierungstechnologie	Deaktiviert
tophat	2.1.1
bowtie2	2.2.5
R,	3.6
bioconductor-cummerbund	2.26.0

Die getesteten Compute-Nodes wurden über Intel^® Omni-Path mit der Dell EMC Ready Solution for Lustre Storage verbunden (3). Die Konfiguration des Storage ist in Tabelle 2 zusammengefasst.

Tabelle 2: Hardware- und Softwarespezifikationen der Lustre Storage-Lösung
Dell EMC Ready Solution for Lustre Storage
Anzahl der Nodes	1 x Dell EMC PowerEdge R640 als integrierter Manager für Lustre (IML) 2 x Dell EMC PowerEdge R740 als Metadatenserver (MDS) 2 x Dell EMC PowerEdge R740 als Objektspeicherserver (OSS)
Prozessoren	IML-Server: Dual Intel Xeon Gold 5118 mit 2,3 GHz MDS- und OSS-Server: Dual Intel Xeon Gold 6136 mit 3,00 GHz
Arbeitsspeicher	IML-Server: 12 x DDR4-RDIMMs mit 8 GB und 2.666 MT/s MDS- und OSS-Server: 24 x DDR4-RDIMMs mit 16 GiB und 2.666 MT/s
Externe Storage- Controller	2 x Dell SAS-HBAs mit 12 Gbit/s (auf jedem MDS) 4 x Dell SAS-HBAs mit 12 Gbit/s (auf jedem OSS)
Objektspeicher- Gehäuse	4 x ME4084 mit insgesamt 336 x NL-SAS-Festplattenlaufwerken mit 8 TB und 7.200 U/min
Metadatenspeicher- Gehäuse	1 x ME4024 mit 24 x SAS-SSDs mit 960 GB. Unterstützt bis zu 4,688 Mrd. Dateien/Inodes
RAID-Controller	Duplex-RAID in den ME4084- und ME4024-Gehäusen
Betriebssystem	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Kernel-Version	3.10.0-862.el7.x86_64
BIOS-Version	1.4.5
Intel Omni-Path IFS-Version	10.8.0.0
Lustre-Dateisystem- Version	2.10.4
IML-Version	4.0.7.0

Eine Performancestudie der RNS-Seq-Pipeline ist nicht trivial, da der Nature-Workflow nicht identische Eingabedateien erfordert. Es wurden 185 RNS-Seq-Paired-End-Lesedaten aus einem öffentlichen Daten-Repository entnommen . Alle gelesenen Datendateien enthalten ca. 25 Millionen Fragmente (MF) mit ähnlichen Leselängen. Die Proben für einen Test werden nach dem Zufallsprinzip aus dem Pool mit 185 Paired-End-Lesedateien ausgewählt. Obwohl diese zufällig ausgewählten Daten keine biologische Bedeutung haben, ermöglichen diese Daten mit hohem Rauschen Tests in einem Worst-Case-Szenario.
Performancebewertung
Test mit zwei Proben
In Abbildung 2 ist die Laufzeit der einzelnen Schritte dargestellt. Der Test wurde mit zwei Compute-Nodes und zwei Proben durchgeführt, die etwa 25 Millionen gelesene RNS-Seq-Daten enthalten. Der Tophat-Schritt wird für jede Probe parallel auf einem Compute-Node gestartet. Mit dem Abschluss von Tophat startet Cufflinks. Der Cuffmerge-Schritt kombiniert die Ergebnisse aus den beiden Cufflinks-Läufen. Der Cuffquant-Schritt wird hinzugefügt, um die Genexpressionen in jeder Probe zu quantifizieren, und die Ergebnisse werden in den Cuffdiff- und Cuffnorm-Schritten weiter untersucht. Der letzte Schritt, CummeRbund, ist ein statistischer Analyseschritt aus dem CummeRbund-R-Paket, der einen visualisierten Bericht erzeugt, wie in Abbildung 2 dargestellt.

Abbildung 2: Gesamtlaufzeit der Tuxedo-Pipeline mit zwei Proben: SRR1608490 und SRR934809. Abbildung 2: Gesamtlaufzeit der Tuxedo-Pipeline mit zwei Proben: SRR1608490 und SRR934809.

Abbildung 3 zeigt differentiell exprimierte Gene aus 8 Probenläufen (jede Probe besteht aus 4 Duplikaten) in Rot mit signifikant niedrigeren p-Werten (Y-Achse) im Vergleich zu anderen Genexpressionen, die in Schwarz dargestellt sind 1. Die X-Achse zeigt die Faltenänderungen mit einer logarithmischen Basis von 2 und diese Faltenänderungen jedes Gens sind gegen die p-Werte aufgetragen. Mehr Proben ermöglichen eine bessere Schätzung der Genexpression. Das rechte obere Diagramm zeigt die Genexpressionen in Probe 2 im Vergleich zu Probe 1, während das linke untere Diagramm die Genexpressionen in Probe 1 im Vergleich zu Probe 2 zeigt. Die Genexpressionen, die mit schwarzen Punkten dargestellt sind, unterscheiden sich in beiden Proben nicht signifikant.

Abbildung 3: Vulkandiagramm der Cuffdiff-Ergebnisse
Durchsatztest – Einzelne Pipeline mit mehr als zwei Proben, biologische und technische Duplikate
RNS-Seq-Studien bestehen in der Regel aus mehreren Proben, manchmal hunderten verschiedenen Proben: normal versus krank oder unbehandelt versus behandelt. Diese Proben neigen aus biologischen Gründen zu starkem Rauschen. Daher ist für die Analyse eine gründliche Vorverarbeitung der Daten erforderlich.

Wir haben eine unterschiedliche Anzahl an Proben getestet (alle unterschiedliche RNS-Seq-Daten aus dem 185 Paired-End-Lesedatensatz), um zu ermitteln, wie viele Daten von 8 Nodes in einem PowerEdge C6420-Cluster verarbeitet werden können. Wie in Abbildung 4 gezeigt, steigen die Laufzeiten mit 2, 4, 8, 16, 32 und 64 Proben exponentiell an, wenn die Anzahl der Proben zunimmt. Die Anzahl von Milliarden Fragmenten/Tag hat sich mit dem Cascade Lake 6248/LustreME4-Storage und der aktualisierten Pipeline fast verdreifacht.

Abbildung 4: Durchsatzvergleiche mit 8 C6420s zwischen Cascade Lake 6248/LustreME4 und Skylake 6148/H600

Der Cuffmerge-Schritt verlangsamt sich nicht, wenn die Anzahl der Proben zunimmt, während die Cuffdiff- und Cuffnorm-Schritte deutlich langsamer werden. Insbesondere der Cuffdiff-Schritt wird zu einem Engpass für die Pipeline, da die Laufzeit exponentiell ansteigt (Abbildung 5). Obwohl die Laufzeit von Cuffnorm wie bei Cuffdiff exponentiell ansteigt, ist sie ignorierbar, da die Laufzeit von Cuffnorm durch die Laufzeit von Cuffdiff begrenzt wird. Durch das Hinzufügen des Cuffquant-Schritts wurde die Laufzeit von Cuffdiff erheblich verbessert. 30 Stunden Laufzeitverkürzung bei Cuffdiff-Schritt und Cuffnorm 20 Stunden schneller dank Cuffquant-Schritt. Obwohl der Performancegewinn von Cuffnorm nicht sichtbar ist, da Cuffdiff und Cuffnorm gleichzeitig starten.

Abbildung 5: Laufzeitsteigerung bei Cuffdiff und Cuffnorm
Abbildung 5: :Laufzeitsteigerung bei Cuffdiff und Cuffnorm
Fazit
Die Ergebnisse des Durchsatztests zeigen, dass PowerEdge C6420s mit 8 Nodes und Lustre-Storage rund 2,7 Milliarden Fragmente aus 64 Proben mit jeweils ~50 Millionen Paired-Lesevorgängen (25 MF) über die Tuxedo-Pipeline verarbeiten können, wie in Abbildung 1 dargestellt. Da die Tuxedo-Pipeline relativ schneller ist als andere gängige Pipelines, ist es schwierig, diese Ergebnisse zu verallgemeinern oder für die genaue Dimensionierung eines HPC-Systems zu verwenden. Die Ergebnisse können jedoch für eine grobe Schätzung der Größe des HPC-Systems verwendet werden.

Ressourcen
1. RNS-Seq differentielle Genexpression: Grundlegendes Tutorial: [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. RNS-Seq-Pipeline-Benchmark mit Dell EMC Ready Bundle for HPC Life Sciences [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage [Link seit 07/2024 tot]

Hinweis: Die Proben werden nach dem Zufallsprinzip aus einem Probenpool ausgewählt, ohne dass es einen sinnvollen Zusammenhang zwischen den Proben gibt.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC Ready Solution für HPC Life Sciences: Tuxedo Pipeline mit Cascade Lake CPU und Lustre/ME4 Refresh

概要: Dieser Artikel behandelt das Whitepaper „Dell EMC Ready Solution for HPC Life Sciences: Tuxedo-Pipeline mit Cascade Lake CPU und Lustre/ME4-Aktualisierung“.

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC Ready Solution für HPC Life Sciences: Tuxedo Pipeline mit Cascade Lake CPU und Lustre/ME4 Refresh

概要: Dieser Artikel behandelt das Whitepaper „Dell EMC Ready Solution for HPC Life Sciences: Tuxedo-Pipeline mit Cascade Lake CPU und Lustre/ME4-Aktualisierung“.

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス