Uwaga: Artykuł napisany przez Kihoon Yoon z HPC and AI Innovation Lab w grudniu 2019
r.Nowy sprzęt i zaktualizowany potok zwiększają przepustowość 3-krotnie w porównaniu z poprzednim rozwiązaniem Ready Solution.
Przegląd
Analiza ekspresji genów jest równie ważna, jak identyfikacja polimorfizmu pojedynczego nukleotydu (SNP), insercja/delecja (indel) lub restrukturyzacja chromosomów. Ostatecznie wszystkie zdarzenia fizjologiczne i biochemiczne zależą od końcowych produktów ekspresji genów, białek. Chociaż większość ssaków ma dodatkową warstwę kontrolną przed ekspresją białka, wiedza o tym, ile transkryptów istnieje w systemie, pomaga scharakteryzować biochemiczny stan komórki. Idealnie byłoby, gdyby technologia umożliwiała nam ilościowe określenie całych białek w komórce, która mogłaby znacząco wyróżnić się w postępie nauk przyrodniczych; Jesteśmy jednak dalecy od osiągnięcia tego celu.
Tutaj, na tym blogu, testujemy jeden popularny potok analizy danych RNA-Seq, znany jako potok Tuxedo (1). Pakiet rurociągów Tuxedo oferuje zestaw narzędzi do analizy różnych danych RNA-Seq, w tym mapowania krótkiego odczytu, identyfikacji połączeń splicingowych, wykrywania transkryptów i izoform, ekspresji różnicowej, wizualizacji i wskaźników kontroli jakości. Szczegółowe kroki w potoku przedstawiono na rysunku 1. Ta zaktualizowana wersja potoku Tuxedo zawiera krok Cuffquant w porównaniu ze starą wersją testowaną w poprzednim blogu (2).
Rysunek 1 Zaktualizowany rurociąg Tuxedo z krokiem
CuffquantKonfiguracje klastra testowego podsumowano w tabeli 1.
Tabela 1 Przetestowana konfiguracja węzła obliczeniowego |
|
Dell EMC PowerEdge C6420 |
|
Procesor |
2x Xeon® Gold 6248 20c 2,5GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
System operacyjny |
RHEL 7.6 |
Połączenia |
Wielostronna ścieżka Intel® |
Profil systemu BIOS |
Zoptymalizowana wydajność |
Procesor logiczny |
Disabled |
Technologia wirtualizacji |
Disabled |
kapelusz |
2.1,1. |
muszka2 |
2.2.5 |
R |
3.6 |
Bioconductor-cummerbund |
2.26.0 |
Przetestowane węzły obliczeniowe zostały podłączone do rozwiązania Dell EMC Ready Solution dla pamięci masowej Lustre za pośrednictwem technologii Intel® Omni-Path (3). Podsumowanie konfiguracji pamięci masowej przedstawiono w tabeli 2.
Tabela 2 Specyfikacje sprzętowe i programowe rozwiązania pamięci masowej Lustre |
|
Gotowe rozwiązanie Dell EMC dla pamięci masowej Lustre |
|
Liczba węzłów |
1x Dell EMC PowerEdge R640 jako zintegrowany menedżer dla Lustre (IML) |
Procesory |
Serwer IML: Dwa procesory Intel Xeon Gold 5118 @ 2,3 GHz |
Pamięć |
Serwer IML: 12 modułów RDIMM DDR4 2666 MT/s x 8 GB |
Zewnętrzna pamięć masowa |
2 x Dell 12 Gb/s SAS HBA (w każdym MDS) |
Przechowywanie |
4x ME4084 o łącznej liczbie 336 dysków twardych NL 7,2 tys. obr./min o pojemności 8 TB |
Przechowywanie |
1x ME4024 z 24 dyskami SSD SAS 960 GB. Obsługuje do 4,688 miliarda plików/i-węzłów |
Kontrolery RAID |
Duplex RAID w obudowach ME4084 i ME4024 |
System operacyjny |
CentOS 7.5 x86_64 |
Wersja jądra |
3.10.0-862.el7.x86_64 |
Wersja systemu BIOS |
1.4.5 |
Wielostronna ścieżka |
10.8.0.0 |
System |
2.10.4 |
Wersja IML |
4.0.7.0 |
Badanie wydajności potoku RNA-Seq nie jest trywialne, ponieważ przepływ pracy natury wymaga nieidentycznych plików wejściowych. 185 danych odczytu sparowanych końców RNA-Seq jest zbieranych z publicznego repozytorium danych. Wszystkie odczytywane pliki danych zawierają około 25 milionów fragmentów (MF) i mają podobne długości odczytu. Próbki do testu zostały losowo wybrane z puli 185 sparowanych plików odczytu. Chociaż te losowo wybrane dane nie będą miały żadnego znaczenia biologicznego, z pewnością te dane o wysokim poziomie szumu będą testować najgorszy scenariusz.
Ocena
wydajnościTest
dla dwóch próbekNa rysunku 2 przedstawiono czas wykonywania każdego kroku. Test przeprowadzono w dwóch węzłach obliczeniowych z dwiema próbkami zawierającymi około 25 milionów odczytanych danych RNA-Seq. Krok Tophat rozpoczyna się dla każdej próbki w węźle obliczeniowym równolegle. Następnie, spinki do mankietów rozpoczynają się po ukończeniu Tophat. Krok Cuffmerge łączy wyniki z dwóch serii spinek do mankietów. Etap Cuffquant jest dodawany w celu ilościowego określenia ekspresji genów w każdej próbce, a wyniki są dalej badane w krokach Cuffdiff i Cuffnorm. Ostatni krok, CummeRbund, jest krokiem analizy statystycznej z pakietu CummeRbund R-package i generuje zwizualizowany raport, jak pokazano na rysunku 2.
Rysunek 2: całkowity czas uruchomienia dla potoku Tuxedo z dwiema próbkami: SRR1608490 i SRR934809.
Rycina 3 pokazuje geny o zróżnicowanej ekspresji z 8 próbek (każda próbka składa się z 4 duplikatów) w kolorze czerwonym ze znacznie niższymi wartościami p (oś Y) w porównaniu z innymi ekspresjami genów pokazanymi na czarnoRozdział 1. Oś X to zmiany krotności w podstawie logarytmicznej 2, a te zmiany fałdowania każdego genu są wykreślane w stosunku do wartości p. Większa liczba próbek pozwoli na lepsze oszacowanie ekspresji genów. Prawy górny wykres to ekspresje genów w próbce 2 w porównaniu z próbką 1, podczas gdy lewy dolny wykres to ekspresje genów w próbce 1 w porównaniu z próbką 2. Ekspresje genów w czarnych kropkach nie różnią się znacząco w obu próbkach.
Rysunek 3 Wykres wulkaniczny wyników
CuffdiffTest przepustowości – pojedynczy rurociąg z więcej niż dwiema próbkami, duplikatami biologicznymi i technicznymi
Typowe badania RNA-Seq składają się z wielu próbek, czasami 100 różnych próbek, normalnych w porównaniu z chorobą lub próbek nieleczonych w porównaniu z leczonymi. Próbki te mają zwykle wysoki poziom hałasu ze względu na ich biologiczne przyczyny; W związku z tym analiza wymaga energicznej procedury wstępnego przetwarzania danych.
Przetestowaliśmy różną liczbę próbek (wszystkie różne dane RNA-Seq wybrane ze 185 zestawów danych z odczytami sparowanych końców), aby sprawdzić, ile danych może przetworzyć 8 węzłów w klastrze PowerEdge C6420. Jak pokazano na rysunku 4, czasy pracy z próbkami 2, 4, 8, 16, 32 i 64 rosną wykładniczo wraz ze wzrostem liczby próbek. Liczba miliardów fragmentów dziennie wzrosła prawie trzykrotnie dzięki przechowywaniu Cascade Lake 6248/LustreME4 i zaktualizowanemu potokowi.
Rysunek 4 Porównanie przepustowości z 8x C6420 między Cascade Lake 6248 / LustreME4 i Skylake 6148 / H600
Krok łączenia mankietów nie zwalnia wraz ze wzrostem liczby próbek, podczas gdy kroki Cuffdiff i Cuffnorm znacznie zwalniają. W szczególności krok Cuffdiff staje się wąskim gardłem dla potoku, ponieważ czas pracy rośnie wykładniczo (rysunek 5). Chociaż czas działania Cuffnorm rośnie wykładniczo, podobnie jak Cuffdiff, można go zignorować, ponieważ czas działania Cuffnorm jest ograniczony przez czas działania Cuffdiff. Dodanie kroku Cuffquant znacznie poprawiło czas działania Cuffdiff. 30 godzin redukcji czasu pracy na kroku Cuffdiff, a Cuffnorm zakończył się o 20 godzin szybciej dzięki krokowi Cuffquant. Chociaż wzrost wydajności z Cuffnorm nie jest widoczny, ponieważ Cuffdiff i Cuffnorm zaczynają się w tym samym czasie.
Rysunek 5 Przyrost czasu uruchomienia na Cuffdiff i Cuffnorm
Wnioski
Wyniki testu przepustowości pokazują, że 8-węzłowe serwery PowerEdge C6420 z pamięcią masową Lustre mogą przetwarzać około 2,7 miliarda fragmentów z 64 próbek z ~50 milionami sparowanych odczytów każda (25 MF) za pośrednictwem potoku Tuxedo zilustrowanego na rysunku 1. Ponieważ rurociąg Tuxedo jest stosunkowo szybszy niż inne popularne potoki, trudno jest uogólnić lub wykorzystać te wyniki do dokładnego określenia rozmiaru systemu HPC. Wyniki mogą jednak pomóc w przybliżonym oszacowaniu rozmiaru systemu HPC.
Zasoby
Rozdział 1. Różnicowa ekspresja genów RNA-Seq: Samouczek podstawowy. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
cyfra arabska. Test porównawczy przepływu danych RNA-Seq z pakietem Dell EMC Ready Bundle dla HPC dla nauk przyrodniczych. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
Rozdział 3. Gotowe rozwiązanie Dell EMC dla pamięci masowej HPC Lustre. [Link martwy od 07/2024]
Uwaga: są one losowo wybierane z puli próbek bez żadnych znaczących powiązań między nimi.