Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Gotowe rozwiązanie HPC firmy Dell EMC dla nauk przyrodniczych: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4

Summary: Ten artykuł dotyczy opracowania zatytułowanego "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Uwaga: Artykuł napisany przez Kihoon Yoon z HPC and AI Innovation Lab w grudniu 2019
r.Nowy sprzęt i zaktualizowany potok zwiększają przepustowość 3-krotnie w porównaniu z poprzednim rozwiązaniem Ready Solution.

Przegląd
Analiza ekspresji genów jest równie ważna, jak identyfikacja polimorfizmu pojedynczego nukleotydu (SNP), insercja/delecja (indel) lub restrukturyzacja chromosomów. Ostatecznie wszystkie zdarzenia fizjologiczne i biochemiczne zależą od końcowych produktów ekspresji genów, białek. Chociaż większość ssaków ma dodatkową warstwę kontrolną przed ekspresją białka, wiedza o tym, ile transkryptów istnieje w systemie, pomaga scharakteryzować biochemiczny stan komórki. Idealnie byłoby, gdyby technologia umożliwiała nam ilościowe określenie całych białek w komórce, która mogłaby znacząco wyróżnić się w postępie nauk przyrodniczych; Jesteśmy jednak dalecy od osiągnięcia tego celu. 
Tutaj, na tym blogu, testujemy jeden popularny potok analizy danych RNA-Seq, znany jako potok Tuxedo (1). Pakiet Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies. rurociągów Tuxedo oferuje zestaw narzędzi do analizy różnych danych RNA-Seq, w tym mapowania krótkiego odczytu, identyfikacji połączeń splicingowych, wykrywania transkryptów i izoform, ekspresji różnicowej, wizualizacji i wskaźników kontroli jakości. Szczegółowe kroki w potoku przedstawiono na rysunku 1. Ta zaktualizowana wersja potoku Tuxedo zawiera krok Cuffquant w porównaniu ze starą wersją testowaną w poprzednim blogu (2).

Rysunek 1 Zaktualizowany rurociąg Tuxedo z krokiem CuffquantRysunek 1 Zaktualizowany rurociąg Tuxedo z krokiem

CuffquantKonfiguracje klastra testowego podsumowano w tabeli 1.

Tabela 1 Przetestowana konfiguracja węzła obliczeniowego

Dell EMC PowerEdge C6420

Procesor

2x Xeon® Gold 6248 20c 2,5GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

System operacyjny

RHEL 7.6

Połączenia

Wielostronna ścieżka Intel®

Profil systemu BIOS

Zoptymalizowana wydajność

Procesor logiczny

Disabled

Technologia wirtualizacji

Disabled

kapelusz

2.1,1.

muszka2

2.2.5

R

3.6

Bioconductor-cummerbund

2.26.0


Przetestowane węzły obliczeniowe zostały podłączone do rozwiązania Dell EMC Ready Solution dla pamięci masowej Lustre za pośrednictwem technologii Intel® Omni-Path (3). Podsumowanie konfiguracji pamięci masowej przedstawiono w tabeli 2.

Tabela 2 Specyfikacje sprzętowe i programowe rozwiązania pamięci masowej Lustre

Gotowe rozwiązanie Dell EMC dla pamięci masowej Lustre

Liczba węzłów

1x Dell EMC PowerEdge R640 jako zintegrowany menedżer dla Lustre (IML)
2 serwery Dell EMC PowerEdge R740 jako serwer metadanych (MDS)
2x Dell EMC PowerEdge R740 jako serwer obiektowej pamięci masowej (OSS)

Procesory

Serwer IML: Dwa procesory Intel Xeon Gold 5118 @ 2,3 GHz
Serwery MDS i OSS: Dwa procesory Intel Xeon Gold 6136 @ 3,00 GHz

Pamięć

Serwer IML: 12 modułów RDIMM DDR4 2666 MT/s x 8 GB
Serwery MDS i OSS: 24 moduły RDIMM DDR4 2666 MT/s x 16 GiB

Zewnętrzna pamięć masowa
Kontrolery

2 x Dell 12 Gb/s SAS HBA (w każdym MDS)
4 karty Dell 12 Gb/s SAS HBA (w każdym systemie operacyjnym)

Przechowywanie
obiektówObudowy

4x ME4084 o łącznej liczbie 336 dysków twardych NL 7,2 tys. obr./min o pojemności 8 TB

Przechowywanie
metadanychzałącznik

1x ME4024 z 24 dyskami SSD SAS 960 GB. Obsługuje do 4,688 miliarda plików/i-węzłów

Kontrolery RAID

Duplex RAID w obudowach ME4084 i ME4024

System operacyjny

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Wersja jądra

3.10.0-862.el7.x86_64

Wersja systemu BIOS

1.4.5

Wielostronna ścieżka
IntelWersja IFS

10.8.0.0

System
plików LustreWersja

2.10.4

Wersja IML

4.0.7.0


Badanie wydajności potoku RNA-Seq nie jest trywialne, ponieważ przepływ pracy natury wymaga nieidentycznych plików wejściowych. 185 danych odczytu sparowanych końców RNA-Seq jest zbieranych z publicznego repozytorium danychKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.. Wszystkie odczytywane pliki danych zawierają około 25 milionów fragmentów (MF) i mają podobne długości odczytu. Próbki do testu zostały losowo wybrane z puli 185 sparowanych plików odczytu. Chociaż te losowo wybrane dane nie będą miały żadnego znaczenia biologicznego, z pewnością te dane o wysokim poziomie szumu będą testować najgorszy scenariusz.
Ocena
wydajnościTest
dla dwóch próbekNa rysunku 2 przedstawiono czas wykonywania każdego kroku. Test przeprowadzono w dwóch węzłach obliczeniowych z dwiema próbkami zawierającymi około 25 milionów odczytanych danych RNA-Seq. Krok Tophat rozpoczyna się dla każdej próbki w węźle obliczeniowym równolegle. Następnie, spinki do mankietów rozpoczynają się po ukończeniu Tophat. Krok Cuffmerge łączy wyniki z dwóch serii spinek do mankietów. Etap Cuffquant jest dodawany w celu ilościowego określenia ekspresji genów w każdej próbce, a wyniki są dalej badane w krokach Cuffdiff i Cuffnorm. Ostatni krok, CummeRbund, jest krokiem analizy statystycznej z pakietu CummeRbund R-package i generuje zwizualizowany raport, jak pokazano na rysunku 2.

Rysunek 2: całkowity czas uruchomienia dla potoku Tuxedo z dwiema próbkami: SRR1608490 i SRR934809.Rysunek 2: całkowity czas uruchomienia dla potoku Tuxedo z dwiema próbkami: SRR1608490 i SRR934809.

Rycina 3 pokazuje geny o zróżnicowanej ekspresji z 8 próbek (każda próbka składa się z 4 duplikatów) w kolorze czerwonym ze znacznie niższymi wartościami p (oś Y) w porównaniu z innymi ekspresjami genów pokazanymi na czarnoRozdział 1. Oś X to zmiany krotności w podstawie logarytmicznej 2, a te zmiany fałdowania każdego genu są wykreślane w stosunku do wartości p. Większa liczba próbek pozwoli na lepsze oszacowanie ekspresji genów. Prawy górny wykres to ekspresje genów w próbce 2 w porównaniu z próbką 1, podczas gdy lewy dolny wykres to ekspresje genów w próbce 1 w porównaniu z próbką 2. Ekspresje genów w czarnych kropkach nie różnią się znacząco w obu próbkach.


Rysunek 3 Wykres wulkaniczny wyników CuffdiffRysunek 3 Wykres wulkaniczny wyników
CuffdiffTest przepustowości – pojedynczy rurociąg z więcej niż dwiema próbkami, duplikatami biologicznymi i technicznymi
Typowe badania RNA-Seq składają się z wielu próbek, czasami 100 różnych próbek, normalnych w porównaniu z chorobą lub próbek nieleczonych w porównaniu z leczonymi. Próbki te mają zwykle wysoki poziom hałasu ze względu na ich biologiczne przyczyny; W związku z tym analiza wymaga energicznej procedury wstępnego przetwarzania danych.
 
Przetestowaliśmy różną liczbę próbek (wszystkie różne dane RNA-Seq wybrane ze 185 zestawów danych z odczytami sparowanych końców), aby sprawdzić, ile danych może przetworzyć 8 węzłów w klastrze PowerEdge C6420. Jak pokazano na rysunku 4, czasy pracy z próbkami 2, 4, 8, 16, 32 i 64 rosną wykładniczo wraz ze wzrostem liczby próbek. Liczba miliardów fragmentów dziennie wzrosła prawie trzykrotnie dzięki przechowywaniu Cascade Lake 6248/LustreME4 i zaktualizowanemu potokowi.

Rysunek 4. Porównanie przepustowości z 8x C6420 pomiędzy Cascade Lake 6248/LustreME4 i Skylake 6148/H600Rysunek 4 Porównanie przepustowości z 8x C6420 między Cascade Lake 6248 / LustreME4 i Skylake 6148 / H600

Krok łączenia mankietów nie zwalnia wraz ze wzrostem liczby próbek, podczas gdy kroki Cuffdiff i Cuffnorm znacznie zwalniają. W szczególności krok Cuffdiff staje się wąskim gardłem dla potoku, ponieważ czas pracy rośnie wykładniczo (rysunek 5). Chociaż czas działania Cuffnorm rośnie wykładniczo, podobnie jak Cuffdiff, można go zignorować, ponieważ czas działania Cuffnorm jest ograniczony przez czas działania Cuffdiff.  Dodanie kroku Cuffquant znacznie poprawiło czas działania Cuffdiff. 30 godzin redukcji czasu pracy na kroku Cuffdiff, a Cuffnorm zakończył się o 20 godzin szybciej dzięki krokowi Cuffquant. Chociaż wzrost wydajności z Cuffnorm nie jest widoczny, ponieważ Cuffdiff i Cuffnorm zaczynają się w tym samym czasie.


Rysunek 5 Przyrost czasu pracy na Cuffdiff i Cuffnorm
Rysunek 5 Przyrost czasu uruchomienia na Cuffdiff i Cuffnorm
Wnioski
Wyniki testu przepustowości pokazują, że 8-węzłowe serwery PowerEdge C6420 z pamięcią masową Lustre mogą przetwarzać około 2,7 miliarda fragmentów z 64 próbek z ~50 milionami sparowanych odczytów każda (25 MF) za pośrednictwem potoku Tuxedo zilustrowanego na rysunku 1. Ponieważ rurociąg Tuxedo jest stosunkowo szybszy niż inne popularne potoki, trudno jest uogólnić lub wykorzystać te wyniki do dokładnego określenia rozmiaru systemu HPC. Wyniki mogą jednak pomóc w przybliżonym oszacowaniu rozmiaru systemu HPC.
 
Zasoby
Rozdział 1. Różnicowa ekspresja genów RNA-Seq: Samouczek podstawowy. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.
cyfra arabska. Test porównawczy przepływu danych RNA-Seq z pakietem Dell EMC Ready Bundle dla HPC dla nauk przyrodniczych. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.
Rozdział 3. Gotowe rozwiązanie Dell EMC dla pamięci masowej HPC Lustre. [Link martwy od 07/2024]

Uwaga: są one losowo wybierane z puli próbek bez żadnych znaczących powiązań między nimi.

Article Properties


Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Last Published Date

25 Jul 2024

Version

3

Article Type

How To