Falcon Accelerated Genomics Pipeline mit einer einzigen intel FPGA Programmable Acceleration Card kann 50-mal ganzes menschliches Genom in weniger als 3 Stunden über die Alternative Variant Calling Pipeline verarbeiten.
Übersicht, Markt-Herausforderung (Erforderlich), Falcon-Lösung erfüllt die Anforderungen
Präzisionsmedizin, Genomforschung und Epigenetik verwenden Genomsequenzierung, um Forschungen durchzuführen, die Diagnose zu verbessern, Pharmazeutika zu entwickeln, die Behandlungsqualität für Gesundheitsdienstleister zu verbessern und die Ernteproduktion zu optimieren. Für Life Sciences ist die Genomanalyse jetzt eine wichtige Anwendung, die teilweise auf die große Kostenreduzierung der Datenerfassung durch Fortschritte bei der Sequenzierung der nächsten Generation (NGS) zurückzuführen ist. Zusätzlich zur verstärkten Datenerfassung hat sich auch die Palette der genomischen Anwendungen, die an Universitäten, in Genomforschungszentren, in Pharmaunternehmen und in Gesundheitsorganisationen verwendet werden, deutlich erhöht.
Alle sieben Monate verdoppelt sich die Menge der Genomdaten (1). Folglich ist die effiziente und kostengünstige Datenverarbeitung von entscheidender Bedeutung. Die Rechenleistung von reinen Prozessorlösungen lässt sich nicht schnell genug skalieren, um mit dem Wachstum genomischer Daten Schritt zu halten. Dies hat dazu geführt, dass hardwarebeschleunigung erforderlich ist. Beschleuniger wie FPGAs werden zu einer zentralen Rolle bei der Anpassung an die Rechenanforderungen dieser explosionsartigen Genomdaten. Im Vergleich zu anderen hardwarebeschleunigte Lösungen bietet die Falcon Accelerated Genomics Pipeline (FAGP) Flexibilität, hohen Durchsatz und niedrigere Kosten pro Beispiel.
Was ist FPGA, Intel PAC-Angebot > Advantage
FPGAs sind Siliziumgeräte, die dynamisch mit einem Datenpfad neu programmiert werden können, der genau zu Ihren Workloads passt, z. B. Genomsequenzierung, Datenanalyse oder Komprimierung, wie in Abbildung 1 dargestellt. Diese Vielseitigkeit ermöglicht die Bereitstellung einer schnelleren Verarbeitung, energieeffizienterer Berechnungen und eines Service mit niedrigerer Latenz . So können Sie Ihre Gesamtbetriebskosten senken und die Compute-Kapazität innerhalb der Leistungs-, Platz- und Kühlungsbeschränkungen Ihrer Rechenzentren maximieren.
Traditionell erfordern FPGAs fundiertes Fachwissen zum Programmieren. Um den Entwicklungsablauf zu vereinfachen und eine schnelle Bereitstellung im gesamten Rechenzentrum zu ermöglichen, bietet Intel eine Beschleunigungsplattform, die PCI Express* (PCIe*) -basierte Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) und den Intel® Acceleration Stack für Intel Xeon® CPU mit FPGAs umfasst. Diese Intel Plattformen sind qualifiziert, validiert und werden über Dell EMC bereitgestellt. Zusammen mit Ökosystempartnern wie Falcon Computing bietet die Intel Acceleration Platform eine zuverlässige und einsatzbereite Lösung mit transparenter Hardware unter der Haube.
Abbildung 1: Verbesserte Genauigkeit und Geschwindigkeit der Standardmäßigen GATK-Pipeline
Falcon Lösungsdetails:
Das Genomanalyse-Toolkit (GATK) ist der Goldstandard für die Verarbeitung genomischer Daten, der von der Genomik-Community akzeptiert wird (2). Der Best Practice-Workflow (BPW) ist bekannt für seine Langsamkeit bei der Berechnung, um Ergebnisse für große Stichproben wie das gesamte Genom (Whole-Genome, WGS) zu erzeugen. Um dieses Problem zu beheben, hat Falcon Computing Solutions ein flexibles Softwarepaket mit Tools entwickelt, das der BPW folgt und einfach in mehreren Plattformen und Architekturen implementiert werden kann. Sie ist im Vergleich zu CPU-basierten GATK-Pipelines um mehrere Größenordnungen schnell.
FAGP bietet eine End-to-End-Lösung zur kosteneffizienten Analyse genomischer Daten mithilfe der GATK-Pipeline mit hoher Performance, Genauigkeit und Reproduzierbarkeit. Die Lösung bietet eine bis zu 15-fache Beschleunigung mit der gleichen Genauigkeit wie GATK (3). Das bedeutet, dass eine Analyse, die in der Regel 50 bis 60 Stunden dauert, in weniger als 4 Stunden (3) durchgeführt werden kann. FAGP bietet ein außergewöhnliches Maß an Beschleunigung und Genauigkeit in Verbindung mit leistungsfähigen, zuverlässigen Intel Arria 10 FPGAs und Intel® Xeon® Prozessoren.
FAGP folgt GATK BPW. Es implementiert die Beschleunigung in vielen Komponenten der Pipelines von der Ausrichtung (BWA) bis hin zum Variantenaufruf (HaplotypeCaller) (4). Neben dem beschleunigten BWA umfasst er auch eine beschleunigte Version des Aligners Minimap2, die Teil der alternativen Genom-Pipeline von Falcon (5) ist. Die alternative Pipeline bietet eine noch schnellere Lösung. Es kann innerhalb von 3 Stunden die 50-fache vollständige Genomsequenzierung abschließen. Beide Aligner verfügen über die Funktion, markierte Duplikate zu erzeugen und Lesevorgänge zu sortieren, ohne dass zusätzliche Tools verwendet werden müssen.
FAGP erreicht hohe Performance/hohen Durchsatz durch schnellere intensive Berechnungen in der GATK-Pipeline mit Intel FPGA PAC-Plattformen. Dies unterscheidet sich von Scale-out-Lösungen, die einen hohen Durchsatz durch Hinzufügen von mehr CPU-Ressourcen erreichen. Solche Scale-out-Lösungen sind nur begrenzt in der Lage, Kosten oder Latenz pro Beispiel zu reduzieren.
Ein weiterer Vorteil der Falcon-Lösung ist, dass es sich um eine offene Pipeline als GATK handelt. Benutzer können einzelne Schritte in den Pipelines steuern. Zwischendaten werden gespeichert und können aufgerufen werden.
Tabelle 1: Vorteile der Falcon Accelerated Genomik-Pipeline
Vorteile der Falcon Accelerated Genomics Pipeline (FAGP) |
Echter GATK |
Unterstützung für mehrere GATK-Versionen, einschließlich 4.0 |
Branchenweit |
Ausführen von fünf ganzen Genomen oder 24 kompletten Exomes an einem Tag |
Alternative Variante |
< 3-Stunden-Bearbeitungszeit vor Ort für WGS (50x) |
Geschwindigkeit |
Bis zu >15-mal schnellere Ausführung der GATK-Best-Practices-Pipeline |
Nutzung vorhandener |
Arbeitsalgorithmen müssen nicht neu geschrieben werden |
Dell Hardwarekonfiguration
Tabelle 2: Dell EMC PowerEdge R740xd als Testumgebung
Dell EMC PowerEdge R740xd |
Prozessor |
2 x Intel(R) Xeon(R) Gold 6148 CPU bei 2,40 GHz |
Arbeitsspeicher |
384 GB bei 32 x 16-GB-RDIMM, 2.666 MT/s, Dual Rank |
Storage |
Hot-Plug-fähige 2,5"-SAS-Festplatte mit 4 x 1,2 TB, 10.000 1/min und 12 Gbit/s, 512n, 2,5" 2 x INTEL SSDPEDMD020T4 DC P3700, 1,8 TB in Software-RAID 0 |
FPGA |
Intel Programmable Acceleration Card mit Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Systemprofil |
Leistung |
BIOS-Version |
2.1.3 |
Hyperthreading |
Enabled |
Betriebssystem |
Red Hat Enterprise Linux Server Version 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Performance-Bewertung
In unseren Benchmarktests verwendeten wir die gesamten menschlichen Genomsequenzdaten mit einer 10-, 30- und 50-fachen Abdeckungstiefe.
Tabelle 3 Getestete Daten zur Sequenzierung des gesamten Genoms
Ergebnisse:
In Tabelle 4 ist die Zeit für den Abschluss der GATK 4.0-Best-Practices-Pipeline über drei Testzyklen mit FAGP und intel FPGA PAC im Dell EMC PowerEdge R740xd-Server zusammengefasst.
Tabelle 4: Gesamtlaufzeiten von Best Practice Pipeline Version 2.1.1
Beispiel |
Abdeckungstiefe |
Test 1 |
Laufzeit (Minuten) Test 2 |
Test 3 |
ERR091571 |
10 x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 x |
242.97 |
250.65 |
247.18 |
Tabelle 5 fasst die Zeit (in Minuten) zusammen, die zum Abschließen der alternativen Pipeline erforderlich ist: Falcon Falcon Falcon über 3 Testzyklen mit FAGP und Intel FPGA PAC, die im Dell EMC PowerEdge R740xd-Server untergebracht sind.
Tabelle 5: Gesamtlaufzeiten aus der Pipeline für den Aufruf alternativer Varianten
Beispiel |
Abdeckungstiefe |
Test 1 |
Laufzeit (Minuten) Test 2 |
Test 3 |
ERR091571 |
10 x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 x |
171.52 |
171.87 |
171.37 |
Zusammenfassung der Falcon Genomic-Lösung
Die Falcon Accelerated Genomics Pipeline bietet hohen Durchsatz, geringe Kosten/Stichproben-/Tagesvorteile. Zusammen mit der intel FPGA Programmable Acceleration Card und dem zertifizierten Dell Server bietet FAGP eine umfassende Lösung, die sich problemlos für Ihre Genomsequenzierungsanwendungen einsetzen lässt.
" Bei TCGB bieten wir unseren nationalen Kunden Genomsequenzierungsservices an. Mit der Falcon Accelerated Genomics Pipeline* konnten wir unsere Bearbeitungszeit von Tagen auf wenige Stunden reduzieren und gleichzeitig die Genauigkeit von GATK-Pipelines nach Branchenstandard aufrechterhalten."
— Dr. Xinmin Li, Director of Technology Center for Genomics & Bioinformatics (TCGB) UCLA
Ressourcen
1. Die Sequenzierung des Genoms erzeugt so viele Daten, dass wir nicht wissen, was wir damit tun sollen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Beschleunigte Genomik. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Beschleunigung genomischer Sequenzierung mit Falcon Accelerated Genomics Pipeline (FAGP) auf Intel FPGA PAC
Falcon Accelerated Genomics Pipeline mit einer einzigen intel FPGA Programmable Acceleration Card kann 50-mal ganzes menschliches Genom in weniger als 3 Stunden über die Alternative Variant Calling Pipeline verarbeiten.