Gotowe rozwiązanie HPC firmy Dell EMC dla nauk przyrodniczych: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4

概要: Ten artykuł dotyczy opracowania zatytułowanego "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4".

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Uwaga: Artykuł napisany przez Kihoon Yoon z HPC and AI Innovation Lab w grudniu 2019
r.Nowy sprzęt i zaktualizowany potok zwiększają przepustowość 3-krotnie w porównaniu z poprzednim rozwiązaniem Ready Solution.

Przegląd
Analiza ekspresji genów jest równie ważna, jak identyfikacja polimorfizmu pojedynczego nukleotydu (SNP), insercja/delecja (indel) lub restrukturyzacja chromosomów. Ostatecznie wszystkie zdarzenia fizjologiczne i biochemiczne zależą od końcowych produktów ekspresji genów, białek. Chociaż większość ssaków ma dodatkową warstwę kontrolną przed ekspresją białka, wiedza o tym, ile transkryptów istnieje w systemie, pomaga scharakteryzować biochemiczny stan komórki. Idealnie byłoby, gdyby technologia umożliwiała nam ilościowe określenie całych białek w komórce, która mogłaby znacząco wyróżnić się w postępie nauk przyrodniczych; Jesteśmy jednak dalecy od osiągnięcia tego celu.
Tutaj, na tym blogu, testujemy jeden popularny potok analizy danych RNA-Seq, znany jako potok Tuxedo (1). Pakiet rurociągów Tuxedo oferuje zestaw narzędzi do analizy różnych danych RNA-Seq, w tym mapowania krótkiego odczytu, identyfikacji połączeń splicingowych, wykrywania transkryptów i izoform, ekspresji różnicowej, wizualizacji i wskaźników kontroli jakości. Szczegółowe kroki w potoku przedstawiono na rysunku 1. Ta zaktualizowana wersja potoku Tuxedo zawiera krok Cuffquant w porównaniu ze starą wersją testowaną w poprzednim blogu (2).

Rysunek 1 Zaktualizowany rurociąg Tuxedo z krokiem

CuffquantKonfiguracje klastra testowego podsumowano w tabeli 1.

Tabela 1 Przetestowana konfiguracja węzła obliczeniowego
Dell EMC PowerEdge C6420
Procesor	2x Xeon® Gold 6248 20c 2,5GHz (Cascade Lake)
RAM	12x 16GB @2933 MT/s
System operacyjny	RHEL 7.6
Połączenia	Wielostronna ścieżka Intel®
Profil systemu BIOS	Zoptymalizowana wydajność
Procesor logiczny	Disabled
Technologia wirtualizacji	Disabled
kapelusz	2.1,1.
muszka2	2.2.5
R	3.6
Bioconductor-cummerbund	2.26.0

Przetestowane węzły obliczeniowe zostały podłączone do rozwiązania Dell EMC Ready Solution dla pamięci masowej Lustre za pośrednictwem technologii Intel^® Omni-Path (3). Podsumowanie konfiguracji pamięci masowej przedstawiono w tabeli 2.

Tabela 2 Specyfikacje sprzętowe i programowe rozwiązania pamięci masowej Lustre
Gotowe rozwiązanie Dell EMC dla pamięci masowej Lustre
Liczba węzłów	1x Dell EMC PowerEdge R640 jako zintegrowany menedżer dla Lustre (IML) 2 serwery Dell EMC PowerEdge R740 jako serwer metadanych (MDS) 2x Dell EMC PowerEdge R740 jako serwer obiektowej pamięci masowej (OSS)
Procesory	Serwer IML: Dwa procesory Intel Xeon Gold 5118 @ 2,3 GHz Serwery MDS i OSS: Dwa procesory Intel Xeon Gold 6136 @ 3,00 GHz
Pamięć	Serwer IML: 12 modułów RDIMM DDR4 2666 MT/s x 8 GB Serwery MDS i OSS: 24 moduły RDIMM DDR4 2666 MT/s x 16 GiB
Zewnętrzna pamięć masowa Kontrolery	2 x Dell 12 Gb/s SAS HBA (w każdym MDS) 4 karty Dell 12 Gb/s SAS HBA (w każdym systemie operacyjnym)
Przechowywanie obiektówObudowy	4x ME4084 o łącznej liczbie 336 dysków twardych NL 7,2 tys. obr./min o pojemności 8 TB
Przechowywanie metadanychzałącznik	1x ME4024 z 24 dyskami SSD SAS 960 GB. Obsługuje do 4,688 miliarda plików/i-węzłów
Kontrolery RAID	Duplex RAID w obudowach ME4084 i ME4024
System operacyjny	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Wersja jądra	3.10.0-862.el7.x86_64
Wersja systemu BIOS	1.4.5
Wielostronna ścieżka IntelWersja IFS	10.8.0.0
System plików LustreWersja	2.10.4
Wersja IML	4.0.7.0

Badanie wydajności potoku RNA-Seq nie jest trywialne, ponieważ przepływ pracy natury wymaga nieidentycznych plików wejściowych. 185 danych odczytu sparowanych końców RNA-Seq jest zbieranych z publicznego repozytorium danych. Wszystkie odczytywane pliki danych zawierają około 25 milionów fragmentów (MF) i mają podobne długości odczytu. Próbki do testu zostały losowo wybrane z puli 185 sparowanych plików odczytu. Chociaż te losowo wybrane dane nie będą miały żadnego znaczenia biologicznego, z pewnością te dane o wysokim poziomie szumu będą testować najgorszy scenariusz.
Ocena
wydajnościTest
dla dwóch próbekNa rysunku 2 przedstawiono czas wykonywania każdego kroku. Test przeprowadzono w dwóch węzłach obliczeniowych z dwiema próbkami zawierającymi około 25 milionów odczytanych danych RNA-Seq. Krok Tophat rozpoczyna się dla każdej próbki w węźle obliczeniowym równolegle. Następnie, spinki do mankietów rozpoczynają się po ukończeniu Tophat. Krok Cuffmerge łączy wyniki z dwóch serii spinek do mankietów. Etap Cuffquant jest dodawany w celu ilościowego określenia ekspresji genów w każdej próbce, a wyniki są dalej badane w krokach Cuffdiff i Cuffnorm. Ostatni krok, CummeRbund, jest krokiem analizy statystycznej z pakietu CummeRbund R-package i generuje zwizualizowany raport, jak pokazano na rysunku 2.

Rysunek 2: całkowity czas uruchomienia dla potoku Tuxedo z dwiema próbkami: SRR1608490 i SRR934809. Rysunek 2: całkowity czas uruchomienia dla potoku Tuxedo z dwiema próbkami: SRR1608490 i SRR934809.

Rycina 3 pokazuje geny o zróżnicowanej ekspresji z 8 próbek (każda próbka składa się z 4 duplikatów) w kolorze czerwonym ze znacznie niższymi wartościami p (oś Y) w porównaniu z innymi ekspresjami genów pokazanymi na czarno Rozdział 1. Oś X to zmiany krotności w podstawie logarytmicznej 2, a te zmiany fałdowania każdego genu są wykreślane w stosunku do wartości p. Większa liczba próbek pozwoli na lepsze oszacowanie ekspresji genów. Prawy górny wykres to ekspresje genów w próbce 2 w porównaniu z próbką 1, podczas gdy lewy dolny wykres to ekspresje genów w próbce 1 w porównaniu z próbką 2. Ekspresje genów w czarnych kropkach nie różnią się znacząco w obu próbkach.

Rysunek 3 Wykres wulkaniczny wyników
CuffdiffTest przepustowości – pojedynczy rurociąg z więcej niż dwiema próbkami, duplikatami biologicznymi i technicznymi
Typowe badania RNA-Seq składają się z wielu próbek, czasami 100 różnych próbek, normalnych w porównaniu z chorobą lub próbek nieleczonych w porównaniu z leczonymi. Próbki te mają zwykle wysoki poziom hałasu ze względu na ich biologiczne przyczyny; W związku z tym analiza wymaga energicznej procedury wstępnego przetwarzania danych.

Przetestowaliśmy różną liczbę próbek (wszystkie różne dane RNA-Seq wybrane ze 185 zestawów danych z odczytami sparowanych końców), aby sprawdzić, ile danych może przetworzyć 8 węzłów w klastrze PowerEdge C6420. Jak pokazano na rysunku 4, czasy pracy z próbkami 2, 4, 8, 16, 32 i 64 rosną wykładniczo wraz ze wzrostem liczby próbek. Liczba miliardów fragmentów dziennie wzrosła prawie trzykrotnie dzięki przechowywaniu Cascade Lake 6248/LustreME4 i zaktualizowanemu potokowi.

Rysunek 4. Porównanie przepustowości z 8x C6420 pomiędzy Cascade Lake 6248/LustreME4 i Skylake 6148/H600 Rysunek 4 Porównanie przepustowości z 8x C6420 między Cascade Lake 6248 / LustreME4 i Skylake 6148 / H600

Krok łączenia mankietów nie zwalnia wraz ze wzrostem liczby próbek, podczas gdy kroki Cuffdiff i Cuffnorm znacznie zwalniają. W szczególności krok Cuffdiff staje się wąskim gardłem dla potoku, ponieważ czas pracy rośnie wykładniczo (rysunek 5). Chociaż czas działania Cuffnorm rośnie wykładniczo, podobnie jak Cuffdiff, można go zignorować, ponieważ czas działania Cuffnorm jest ograniczony przez czas działania Cuffdiff. Dodanie kroku Cuffquant znacznie poprawiło czas działania Cuffdiff. 30 godzin redukcji czasu pracy na kroku Cuffdiff, a Cuffnorm zakończył się o 20 godzin szybciej dzięki krokowi Cuffquant. Chociaż wzrost wydajności z Cuffnorm nie jest widoczny, ponieważ Cuffdiff i Cuffnorm zaczynają się w tym samym czasie.

Rysunek 5 Przyrost czasu pracy na Cuffdiff i Cuffnorm
Rysunek 5 Przyrost czasu uruchomienia na Cuffdiff i Cuffnorm
Wnioski
Wyniki testu przepustowości pokazują, że 8-węzłowe serwery PowerEdge C6420 z pamięcią masową Lustre mogą przetwarzać około 2,7 miliarda fragmentów z 64 próbek z ~50 milionami sparowanych odczytów każda (25 MF) za pośrednictwem potoku Tuxedo zilustrowanego na rysunku 1. Ponieważ rurociąg Tuxedo jest stosunkowo szybszy niż inne popularne potoki, trudno jest uogólnić lub wykorzystać te wyniki do dokładnego określenia rozmiaru systemu HPC. Wyniki mogą jednak pomóc w przybliżonym oszacowaniu rozmiaru systemu HPC.

Zasoby
Rozdział 1. Różnicowa ekspresja genów RNA-Seq: Samouczek podstawowy. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
cyfra arabska. Test porównawczy przepływu danych RNA-Seq z pakietem Dell EMC Ready Bundle dla HPC dla nauk przyrodniczych. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
Rozdział 3. Gotowe rozwiązanie Dell EMC dla pamięci masowej HPC Lustre. [Link martwy od 07/2024]

Uwaga: są one losowo wybierane z puli próbek bez żadnych znaczących powiązań między nimi.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Gotowe rozwiązanie HPC firmy Dell EMC dla nauk przyrodniczych: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4

概要: Ten artykuł dotyczy opracowania zatytułowanego "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4".

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Gotowe rozwiązanie HPC firmy Dell EMC dla nauk przyrodniczych: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4

概要: Ten artykuł dotyczy opracowania zatytułowanego "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline z procesorem Cascade Lake i odświeżaniem Lustre/ME4".

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス