Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Przyspieszanie analizy danych genomu za pomocą oprogramowania NVIDIA Clara Parabricks, serwera Dell EMC DSS 8440 i procesorów graficznych NVIDIA T4

Summary: Ten artykuł zawiera informacje na temat przyspieszania analizy danych genomu za pomocą oprogramowania NVIDIA Parabricks na serwerze Dell EMC DSS 8440 z procesorami graficznymi NVIDIA T4. ...

This article applies to   This article does not apply to 

Instructions

Omówienie

Pierwszy krok przetwarzania danych sekwencjonowania nowej generacji (Next Generation Sequencing, NGS) nazywa się analizą podstawową. Ten krok jest specyficzny dla przyrządu do sekwencjonowania i generuje wiele plików FASTQ zawierających dane odczytów sekwencjonowania. W następnym kroku, zwanym analizą wtórną, dane odczytów sekwencjonowania FASTQ są mapowane na genom referencyjny lub transkryptom porównawczy. Dodatkowe przetwarzanie skutkuje identyfikacją wariantów lub różnic między próbką stanowiącą przedmiot zainteresowania a materiałem porównawczym. Poszczególne warianty są opatrzone adnotacjami i interpretowane w kolejnych etapach. Czas trwania analizy wtórnej pojedynczej próbki mieści się w zakresie od godzin do dni w zależności od rozmiaru danych, dostępnych zasobów komputerowych, oprogramowania i przepływu pracy analizy. 

Analiza wtórna to proces wymagający użycia dużej mocy obliczeniowej i pamięci, szczególnie w przypadku przetwarzania setek czy tysięcy genomów. Istnieje wiele strategii zapobiegania problemów z wydajnością analizy wtórnej. Do niedawna korzystanie z akceleracji sprzętowej przy użyciu procesora GPU lub FPGA pozostawało na niskim poziomie ze względu na niestandardowe oprogramowanie wymagane przez akceleratory sprzętowe. Oprogramowanie do genomiki Parabricks, zakupione przez firmę NVIDIA w 2019 r., było pionierskim stosem oprogramowania wykonującym różne przepływy pracy analiz genomów przy użyciu procesorów graficznych. Oprogramowanie Parabricks przetestowaliśmy za pomocą procesorów graficznych Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 około dwa lata temu. Firma Dell w swoich systemach serwerowych i rozwiązaniach pamięci masowej wprowadziła wiele zaawansowanych technologii, zaś NVIDIA Clara Parabricks wydała stabilne wersje z lepszym przyspieszeniem oraz dodatkiem wariantowych elementów wywołujących. Na przykład konstrukcja serwerów z wieloma procesorami graficznymi GPU bazująca na serwerze Dell EMC DSS 8440 wyposażonym w procesory graficzne NVIDIA® Tesla® T4 wyglądała obiecująco pod względem przyspieszenia analizy wtórnej, oferując jednocześnie atrakcyjną równowagę między ceną a wydajnością.  Ten wpis na blogu przedstawia nową architekturę referencyjną i wyniki testów porównawczych dla oprogramowania do wtórnej analizy NVIDIA Clara Parabricks przy użyciu wieloprocesorowego serwera DSS 8440 z procesorami graficznymi Tesla® T4 i pamięcią masową Dell EMC Isilon F800.

Architektura referencyjna

Rysunek 1 przedstawia przetestowaną architekturę referencyjną. Architektura jest modułowa i łatwa do skalowania. Oprogramowanie NVIDIA Clara Parabricks wykorzystuje co najmniej jeden procesor graficzny, maksymalnie upraszczając skalowanie w poziomie. Bloki konstrukcyjne sprzętu składają się z węzła zarządzania Dell EMC PowerEdge R640, serwera DSS 8440 do przetwarzania przez GPU oraz pamięci masowej Dell EMC Isilon F800.


Rysunek 1. Testowana architektura referencyjna


Serwer 4U DSS 8440 z 2 gniazdami może pomieścić maksymalnie 10 wiodących w branży procesorów graficznych NVIDIA® Tesla® V100S Tensor Core, 10 procesorów GPU NVIDIA® Quadro RTX ™ lub nawet 16 procesorów graficznych NVIDIA Tesla T4, zapewniając ogromną moc obliczeniową. Szczegółową konfigurację systemu DSS 8440 przedstawiono w tabeli 1.

 
Dell EMC DSS 8440
Procesor 2x Xeon® Gold 6248R, 24 rdzenie, 3,0 GHz
RAM prędkość 24x (64 GB) przy 2933 MT/s
System operacyjny Red Hat Enterprise Linux Server wersja 7.4 (Maipo)
Profil systemu BIOS Zoptymalizowana wydajność
Procesor logiczny Wyłączony
Technologia wirtualizacji Wyłączona
Akceleratory 16 procesorów graficznych NVIDIA® Tesla® T4
Parabricks v3.0.0.05

Dwa przełączniki Z9100-ON zapewniają połączenie między węzłem obliczeniowym a klastrem pamięci masowej Isilon F800. Dodatkowy przełącznik N2248X-ON służy do zarządzania.

Dane NGS

Dane do analizy porównawczej czasu wykonywania analizy wtórnej składały się z trzech zestawów danych sekwencjonowania całego ludzkiego genomu (WGS), ERR091571, SRR3124837, i ERR194161, reprezentujących odpowiednio 10x, 30x i 50x pokrycie próbki. Te zestawy danych są dostępne w europejskim archiwum nukleotydów ENA.

Ocena wydajności

Udoskonalenia wprowadzone do oprogramowania skracają czas wykonywania
Firma NVIDIA stale udoskonala oprogramowanie NVIDIA Clara Parabricks. Rysunek 2 przedstawia porównanie skrócenia czasu wykonywania pomiędzy dwoma wersjami oprogramowania Parabricks obsługującymi kanały przepływu danych linii zarodkowej przy użyciu serwera Dell PowerEdge C4140 w środowisku testowym 4 procesorów graficznych V100. Przejście z wersji 2.1.0 na wersję 3.0.0 spowodowało skrócenie czasu wykonania o 42%.


Rysunek 2. Najnowsza wersja środowisko uruchomieniowego kanałów przepływu danych Parabricks dla wariantu linii zarodkowej.

Wydajność serwera DSS 8440 z 16 procesorami T4

Środowisko uruchomieniowe do analizy wtórnej NVIDIA Clara Parabricks wykonywanej przy użyciu pojedynczego procesora graficznego T4 jest około 30% wolniejsze niż w przypadku korzystania z jednego procesora graficznego V100. Jednakże dwa (2) procesory graficzne T4 zapewniają około 10% więcej TFLOPS niż jeden (1) procesor V100 za około połowę ceny. Serwer DSS 8440 zapewnia maksymalnie 16 gniazd PCIe, co otwiera możliwość zaprojektowania serwera opartego na procesorach graficznych T4, który zapewnia podobną wydajność pod względem czasu wykonywania co system C4140 z czterema procesorami graficznymi V100, ale za zdecydowanie niższą cenę.
Analiza linii zarodkowej Parabricks została przeprowadzona za pomocą komputera PowerEdge DSS 8440 wyposażonego w 16 procesorów graficznych T4. Dla każdego opisanego wcześniej zestawu danych próbki WGS czas wykonywania rejestrowano przy użyciu 1, 2, 4, 8 i 16 procesorów graficznych T4 na analizę wtórną. Wyniki przedstawiono na rysunkach od 3 do 5. Ogólnie rzecz biorąc, czas wykonywania nie skaluje się liniowo wraz z wzrostem liczby procesorów graficznych przypadających na analizę. Wzorzec skalowania jest zbliżony do wzrostu pokrycia ilości danych na próbkę od 10x do 50x. 
Chociaż nie zostały tutaj przedstawione, wyniki wcześniejszego badania Dell EMC czasu wykonywania analizy Parabricks za pomocą ośmiu lub większej liczby procesorów graficznych V100 na analizę nie wykazały tak wydajnego skalowania, jak w przypadku procesorów graficznych T4. Dodatkowe testy wykazały, że 6 procesorów graficznych T4 generowało wyniki czasu wykonywania niemal identyczne jak 4 procesory graficzne V100.


Rysunek 3. Porównanie wydajności przy 10x WGS


Rysunek 4. Porównanie wydajności przy 30x WGS


Rysunek 5. Porównanie wydajności przy 50x WGS


Wnioski

Serwer DSS 8440 z szesnastoma procesorami graficznymi T4 jest w stanie przetwarzać trzydzieści ludzkich genomów 50x dziennie. Podobna przepustowość codziennych analiz przy użyciu tradycyjnej architektury procesorów x86 wymaga dziesięciu węzłów obliczeniowych PowerEdge C6420. Kompletną architekturę omówiono w poprzedniej publikacji firmy Dell.
Jednak zaangażowanie wszystkich 16 procesorów graficznych T4 do przetwarzania jednej próbki przynosi niewielkie korzyści, ponieważ użycie 16 procesorów graficznych na analizę jest w najlepszym przypadku o 10% szybsze niż użycie 8 procesorów graficznych. Konstrukcja serwera DSS 8440 umożliwia równoległe wykonywanie kilku analiz wtórnych. Dzięki przydzieleniu ośmiu procesorów graficznych T4 do analizy próbki dzienna przepustowość analizy wzrasta do ~50 genomów dziennie. Użycie czterech procesorów graficznych do analizy próbki zwiększa przepustowość analizy do 70 genomów dziennie. Co ważniejsze, koszt dziennej wydajności przy użyciu procesorów graficznych T4 nie osiąga nawet połowy kosztu konstrukcji z procesorem graficznym V100.
Oprócz szybkości, dla porównywalności wyników niezbędna jest kompatybilność z innymi narzędziami analitycznymi. Wyniki analizy linii zarodkowej za pomocą oprogramowania Parabricks są niemal tożsame z dobrze znaną z wcześniejszych testów analizą BWA-GATK Haplotype Caller.  Chcieliśmy również porównać wyniki wywołań wariantu Parabricks z innymi zestawami narzędzi, takimi jak samtools/mpileup.  Te dwa zupełnie różne narzędzia osiągają około 90% ogólnej zgodności dla zidentyfikowanych wariantów, zaś wariacje w wielu dobrze znanych regionach genomu zawierających ważne geny są zgodne w ponad 99%.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640