Falcon Accelerated Genomics Pipeline z jedną programowalną kartą akceleracji Intel FPGA może przetwarzać 50x cały genom w mniej niż 3 godziny za pośrednictwem alternatywnego potoku wywoływania wariantów.
Omówienie, wyzwanie rynkowe (potrzeba), rozwiązanie Falcon odpowiada na potrzeby
Medycyna precyzyjna, genomika i epigenetyka wykorzystują sekwencje genomiczne do prowadzenia badań, doskonalenia diagnostyki, opracowywania produktów, zwiększania jakości opieki nad pracownikami służby zdrowia oraz optymalizacji produkcji. W przypadku nauk przyrodniczych analiza genomu jest obecnie kluczowym zastosowaniem, wynikającym częściowo z dużej redukcji kosztów gromadzenia danych z postępów w sekwencjonowaniu nowej generacji (NGS). Oprócz zwiększonego gromadzenia danych zaobserwowano również znaczny wzrost zakresu zastosowań genomicznych używanych na uniwersytetach, w centrach badań genomicznych, firmach zajmujących się zagięciami i organizacjach opieki zdrowotnej.
Co siedem miesięcy ilość danych genomu podwaja się (1). W związku z tym przetwarzanie danych w efektywny i opłacalny sposób staje się krytyczne. Moc obliczeniowa rozwiązań opartych tylko na procesorach nie skaluje się wystarczająco szybko, aby utrzymać wzrost ilości danych genomicznych. Doprowadziło to do potrzeby przyspieszenia sprzętowego. Akceleratory, takie jak układy FPGA, stają się pivotal w zakresie dopasowywania wymagań obliczeniowych tej genomicznej eksplozji danych. W porównaniu z innymi rozwiązaniami przyspieszania sprzętowego, falcon accelerated genomics Pipeline (FAGP) zapewnia elastyczność, wysoką przepustowość i niższy koszt próbek.
Co to jest FPGA, oferta Intel PAC & Advantage
UKŁADY FPGA to urządzenia silikonowe, które można dynamicznie przeprogramować za pomocą ścieżki danych dokładnie odpowiadającej obciążeniu roboczemu, takiej jak sekwencjonowanie genomiczne, analiza danych lub kompresja, jak pokazano na rysunku 1. Ta wszechstronność umożliwia przydzielanie szybszego przetwarzania, bardziej energooszczędne obliczenia i obsługę z mniejszymi opóźnieniami — obniża całkowity koszt użytkowania i maksymalizuje moc obliczeniową w obrębie ograniczeń zasilania, przestrzeni i chłodzenia centrów danych.
Tradycyjnie układy FPGA wymagają głębokiej wiedzy specjalistycznej w zakresie programowania. Aby uprościć przepływ rozwoju i umożliwić szybkie wdrożenie w centrum przetwarzania danych, firma Intel oferuje platformę przyspieszania obejmującą karty PCI Express* (PCIe*) oparte na technologii Intel FPGA Programmable Acceleration Card (Intel FPGA PAC) oraz intel® acceleration stack dla procesorów Intel Xeon® z układami FPGA. Te platformy Intel są kwalifikowane, zatwierdzone i wdrożone za pośrednictwem Dell EMC. Platforma akceleracji Intel, podobnie jak partnerzy ekosystemu, tacy jak Falcon Computing, oferuje niezawodne i gotowe do pracy rozwiązanie z przezroczystym sprzętem pod osłoną.
Rysunek 1. Zwiększona dokładność i szybkość standardowego potoku GATK
Szczegóły rozwiązania Falcon:
Zestaw narzędzi do analizy genomu (GATK) to gold standard przetwarzania danych genomicznych akceptowany przez społeczność genomiki (2). Przepływ pracy w najlepszej praktyce (BPW) jest dobrze znany ze swojej wolnej obliczeń w celu generowania wyników dla dużych próbek, takich jak cały genom (WGS). Aby rozwiązać ten problem, falcon computing solutions opracował elastyczny pakiet narzędzi, które są zgodne z BPW i można go łatwo wdrożyć na wielu platformach i architekturach. W porównaniu z potokami GATK opartymi na procesorach
jest on szybki o kilka zamówień o wielkości.FaGP to kompleksowe rozwiązanie umożliwiające opłacalną analizę danych genomicznych przy użyciu potoku GATK z wysoką wydajnością, dokładnością i powtarzalnością. Rozwiązanie zapewnia szybkość do 15x z taką samą dokładnością jak GATK (3). Oznacza to, że analizę, która zwykle trwa od 50 do 60 godzin, można przeprowadzić w mniej niż 4 godziny (3). Technologia FAGP zapewnia wyjątkowy poziom przyspieszenia i dokładności w połączeniu z wydajnymi, niezawodnymi procesorami Intel Arria 10 FPGA i Intel® Xeon®.
FaGP jest zgodny z GATK BPW. Implementuje przyspieszenie w wielu elementach potoków, od wyrównania (BWA) do wywołania wariantu (HaplotypeCaller) (4). Oprócz przyspieszonego BWA zawiera również przyspieszoną wersję minimapy 2, która jest częścią alternatywnego potoku genomicznego firmy Falcon (5). Alternatywny potok zapewnia jeszcze szybsze rozwiązanie. Sekwencjonowanie całego genomu 50x w ciągu 3 godzin. Oba programy wyrównywania mają funkcję generowania oznaczonych duplikatów i sortowania odczytów bez konieczności korzystania z dodatkowych narzędzi.
FaGP osiąga wysoką wydajność/przepustowość poprzez przyspieszenie intensywnej obliczeń w potoku GATK przy użyciu platform Intel FPGA PAC. Różni się to od skalowalnych rozwiązań, które zapewniają wysoką przepustowość poprzez dodanie większej liczby zasobów procesora. Takie skalowane rozwiązania mają ograniczone możliwości redukcji kosztów lub przykładowych opóźnień.
Kolejną zaletą rozwiązania Falcon jest to, że jest to otwarty potok jako GATK. Użytkownicy mogą kontrolować poszczególne etapy w potokach. Dane pośrednie są zapisywane i dostępne.
Tabela 1 Zalety narzędzia Falcon Accelerated Genomics Pipeline
Zalety protokołu Falcon Accelerated Genomics Pipeline (FAGP) |
True GATK |
Obsługa wielu wersji GATK, w tym 4.0 |
Skala branżowa |
Uruchamianie pięciu całych genomów lub 24 całych exomes w ciągu jednego dnia |
Alternatywny wariant |
< 3-godzinny czas realizacji w trybie fabrycznym dla WGS (50x) |
Szybkość |
Uruchamianie potoku najlepszych praktyk GATK nawet >15 razy szybciej |
Wykorzystaj istniejące |
Nie trzeba nadpisywać działających algorytmów |
Konfiguracja sprzętu firmy Dell
Tabela 2: Dell EMC PowerEdge R740xd jako gniazdo testowe
Dell EMC PowerEdge R740xd |
Procesor |
2 procesory Intel(R) Xeon(R) Gold 6148 przy 2,40 GHz |
Pamięć |
384 GB przy 32 modułach RDIMM 16 GB, 2666 MT/s, pamięć dwuwarstwowe |
Pamięć masowa |
4 dyski twarde 1,2 TB 10 tys. obr./min SAS 12 Gb/s 512n 2,5" z funkcją hot-plug w macierzy RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8T w programowej macierzy RAID 0 |
FPGA |
Programowalna karta akceleracji Intel Z technologią Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Profil systemu |
Performance (Wydajność). |
Wersja systemu BIOS |
2.1.3 |
Hyperthreading |
Enabled |
System operacyjny |
Red Hat Enterprise Linux Server w wersji 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Ocena wydajności
W naszych testach porównawczych użyliśmy danych sekwencjonowania całego genomu ludzkiego na 10x, 30x i 50x głębokości.
Tabela 3 Przetestowano dane sekwencjonowania całego genomu
Wyniki:
Tabela 4 podsumowuje czas potrzebny na ukończenie potoku najlepszych praktyk GATK 4.0 w ciągu trzech cykli testowych przy użyciu protokołu FAGP i interfejsu PAC Intel FPGA umieszczonego w serwerze DELL EMC PowerEdge R740xd.
Tabela 4. Łączny czas wykonywania z potoku najlepszych praktyk w wersji 2.1.1
Przykładowe |
Głębokość zakresu |
Test 1 |
Czas wykonywania (minuty) Test 2 |
Test 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tabela 5 podsumowuje czas (w minutach) potrzebny na ukończenie alternatywnego potoku: Falcon Germline w ciągu trzech cykli testowych z wykorzystaniem FAGP i Intel FPGA PAC umieszczone w serwerze DELL EMC PowerEdge R740xd.
Tabela 5 Łączny czas wykonywania z alternatywnego potoku wywoływania wariantów
Przykładowe |
Głębokość zakresu |
Test 1 |
Czas wykonywania (minuty) Test 2 |
Test 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Podsumowanie rozwiązania Falcon Genomic
Potok Falcon Accelerated Genomics Pipeline zapewnia wysoką przepustowość, niski koszt/próbkę/korzyści dzienne. Wraz z programową kartą akceleracji Intel FPGA i certyfikowanym serwerem DELL, FAGP zapewnia kompletne rozwiązanie, które można łatwo wdrożyć w zastosowaniach sekwencjonowania genomu"
. W ramach usługi TCGB oferujemy usługi sekwencjonowania genomu dla naszych klientów terminali. Układ Falcon Accelerated Genomics Pipeline* umożliwił nam skrócenie czasu realizacji z kilku dni do kilku godzin przy zachowaniu dokładności standardowych potoków GATK".
— Dr Xinmin Li, dyrektor Centrum technologii genomiki i bioinformatyki (TCGB)
Resources
1. Sekwencjonowanie genomu tworzy tyle danych, że nie wiemy, co z nim zrobić. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Przyspieszona genomika. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Szybsze sekwencjonowanie genomu dzięki rozwiązaniu Falcon Accelerated Genomics Pipeline (FAGP) z Intel FPGA PAC
Falcon Accelerated Genomics Pipeline z jedną programowalną kartą akceleracji Intel FPGA może przetwarzać 50x cały genom w mniej niż 3 godziny za pośrednictwem alternatywnego potoku wywoływania wariantów.