Dell EMC Ready Solution -ratkaisu HPC-biotieteille: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä

概要: Tämä artikkeli kattaa raportin "Dell EMC Ready Solution for HPC Life Sciences: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä".

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Huomautus: Artikkelin kirjoitti Kihoon Yoon HPC and AI Innovation Labista joulukuussa 2019
Uusi laitteisto ja päivitetty myyntiputki yhdessä lisäävät suorituskykyä 3 kertaa enemmän kuin edellisessä valmiissa ratkaisussa.

Yleiskatsaus
Geeniekspressioanalyysi on yhtä tärkeää kuin yhden nukleotidin polymorfismin (SNP), insertion/deleetion (indel) tai kromosomirakenteen tunnistaminen. Lopulta kaikki fysiologiset ja biokemialliset tapahtumat riippuvat lopullisista geeniekspressiotuotteista, proteiineista. Vaikka useimmilla nisäkkäillä on ylimääräinen kontrolloiva kerros ennen proteiinien ilmentymistä, tieto siitä, kuinka monta transkriptiota järjestelmässä on, auttaa karakterisoimaan solun biokemiallista tilaa. Ihannetapauksessa teknologian avulla voimme kvantifioida solun kokonaiset proteiinit, jotka voisivat menestyä biotieteiden kehityksessä merkittävästi; Olemme kuitenkin kaukana sen saavuttamisesta.
Tässä blogissa testaamme yhtä suosittua RNA-Seq-data-analyysiputkea, joka tunnetaan nimellä Tuxedo-putki (1). Tuxedo-putkilinja tarjoaa joukon työkaluja erilaisten RNA-Seq-tietojen analysointiin, mukaan lukien lyhytlukukartoitus, liitosliitosten tunnistaminen, transkription ja isoformin havaitseminen, differentiaalinen ilmentyminen, visualisoinnit ja laadunvalvontamittarit. Myyntiputken yksityiskohtaiset vaiheet on esitetty kuvassa 1. Tämä päivitetty versio Tuxedo-putkesta sisältää Cuffquant-vaiheen verrattuna edellisessä blogissa testattuun vanhaan versioon (2).

Kuva 1: Päivitetty smokkiputki, jossa on mansettivaihe

Testiklusterin konfiguraatiot on esitetty taulukossa 1.

Taulukko 1 Testattu laskentasolmun kokoonpano
Dell EMC PowerEdge C6420
Suoritin	2 x Xeon® Gold 6248 20C 2,5 GHz (Cascade Lake)
RAM	12 x 16 Gt @2 933 MT/s
Käyttöjärjestelmä	RHEL 7,6
Verkon liitäntä	Intel® Omni-Path
BIOS-järjestelmän profiili	Optimoitu suorituskyky
Looginen suoritin	Ei käytössä
Virtualisointitekniikka	Ei käytössä
Tofat	2.1.1
rusetti2	2.2.5
R	3.6
Biojohde-Cummerbund	2.26.0

Testatut laskentasolmut yhdistettiin Dell EMC Ready Solution for Lustre Storage -ratkaisuun Intel^® Omni-Pathin kautta (3). Tallennusvälineen yhteenvetokokoonpano on lueteltu taulukossa 2.

Taulukko 2 Lustren tallennusratkaisun laitteisto- ja ohjelmistotiedot
Dell EMC:n valmis ratkaisu Luster-tallennukseen
solmujen määrä	1 x Dell EMC PowerEdge R640 Lustren (IML) integroituna hallinnoijana2x Dell EMC PowerEdge R740 metatietopalvelimena (MDS) 2x Dell EMC PowerEdge R740 objektitallennuspalvelimena (OSS)
Suorittimet	IML-palvelin: Kaksi Intel Xeon Gold 5118 @ 2.3 GHz MDS- ja OSS-palvelimet: Kaksi Intel Xeon Gold 6136 @ 3.00 GHz
Muisti	IML-palvelin: 12 x 8 Gt:n 2 666 MT/s:n DDR4 RDIMM -muistia MDS- ja OSS-palvelimet: 24 x 16 GiB, 2 666 MT/s:n DDR4 RDIMM -muistia
Ulkoinen tallennuslaite Ohjaimet	2 x Dell 12 Gb/s:n SAS HBA:ta (kussakin MDS:ssä) 4 x Dell 12 Gb/s:n SAS HBA:ta (kussakin OSS:ssä)
Objektitallennus Kotelot	4 x ME4084, yhteensä 336 x 8 Tt:n NL SAS HDD, 7 200 RPM
Metatietojen tallennus liite	1 x ME4024 ja 24 x 960 Gt:n SAS SSD -asemat. Tukee jopa 4,688 miljardia tiedostoa/inodeja
RAID-ohjaimet	Duplex RAID ME4084- ja ME4024-kehyksissä
Käyttöjärjestelmä	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7,5 x86_64
Kernel-versio	3.10.0-862.el7.x86_64
BIOS-versio	1.4.5
Intel Omni-Path IFS-versio	10.8.0.0
Lustren tiedostojärjestelmä versio	2.10.4
IML-versio	4.0.7.0

RNA-Seq-putkilinjan suorituskykytutkimus ei ole vähäpätöinen, koska luonteen työnkulku edellyttää ei-identtisiä syötetiedostoja. 185 RNA-Seq-paripäätyistä lukudataa kerätään julkisesta tietovarastosta. Kaikki luetut datatiedostot sisältävät noin 25 miljoonaa fragmenttia (MF) ja niillä on samanlaiset lukupituudet. Näytteet testiä varten, joka valittiin satunnaisesti 185 parillisen lukutiedoston joukosta. Vaikka näillä satunnaisesti valituilla tiedoilla ei ole biologista merkitystä, varmasti nämä tiedot, joissa on korkea melutaso, asettavat testit pahimpaan mahdolliseen skenaarioon.
Suorituskyvyn arviointi
Kahden näytteen testi
Kuvassa 2 esitetään kunkin vaiheen kesto. Testi suoritettiin kahdessa laskentasolmussa kahdella näytteellä, jotka sisälsivät noin 25 miljoonaa luettua RNA-Seq-dataa. Tofat-vaihe alkaa jokaiselle näytteelle laskentasolmussa rinnakkain. Tämän jälkeen kalvosinnapit alkavat Tophatin valmistuttua. Cuffmerge-vaihe yhdistää kahden kalvosinnapin juoksun tulokset. Mansettivaihe lisätään kvantifioimaan geeniekspressiot kussakin näytteessä, ja tuloksia tutkitaan tarkemmin Cuffdiffin ja Cuffnormin vaiheissa. Viimeinen vaihe, CummeRbund on tilastollisen analyysin vaihe CummeRbund R-paketista, ja se luo visualisoidun raportin kuvan 2 mukaisesti.

Kuva 2 Smokkiputken kokonaiskäyttöaika kahdella näytteellä: SRR1608490 ja SRR934809. Kuva 2 Smokkiputken kokonaiskäyttöaika kahdella näytteellä: SRR1608490 ja SRR934809.

Kuvassa 3 on esitetty eri tavalla ilmentyneet geenit 8 näyteajosta (jokainen näyte koostuu 4 kaksoiskappaleesta) punaisella huomattavasti pienemmillä p-arvoilla (Y-akseli) verrattuna muihin mustalla kuvattuihin geeniekspressioihin1. X-akseli on logaritmikannan 2 poimumuutokset, ja nämä kunkin geenin taitosmuutokset piirretään p-arvoja vasten. Enemmän näytteitä tuo paremman geeniekspressioarvion. Oikea ylempi kuvaaja on geeniekspressio näytteessä 2 verrattuna näytteeseen 1, kun taas vasen alempi kuvaaja on geeniekspressio näytteessä 1 verrattuna näytteeseen 2. Geeniekspressiot mustissa pisteissä eivät eroa merkittävästi molemmissa näytteissä.

Kuva 3 Cuffdiffin tulosten tulivuorikaavio Kuva 3 Cuffdiffin tulosten
tulivuorikaavioLäpäisytesti – Yksi putkisto, jossa on enemmän kuin kaksi näytettä, biologiset ja tekniset kaksoiskappaleet
Tyypilliset RNA-Seq-tutkimukset koostuvat useista näytteistä, joskus 100 eri näytteestä, normaali vs. tauti tai käsittelemätön vs. käsitelty näyte. Näillä näytteillä on yleensä korkea melutaso biologisista syistään; Siksi analyysi edellyttää voimakasta tietojen esikäsittelyä.

Testasimme erilaisia näytemääriä (kaikki erilaisia RNA-Seq-tietoja, jotka on valittu 185 parillisen pään lukutietojoukosta) nähdäksemme, kuinka paljon tietoja PowerEdge C6420 -klusterin 8 solmua voi käsitellä. Kuten kuvasta 4 käy ilmi, 2, 4, 8, 16, 32 ja 64 näytteen ajoajat kasvavat eksponentiaalisesti, kun näytteiden määrä kasvaa. Miljardien fragmenttien määrä päivässä kasvoi lähes kolminkertaiseksi Cascade Lake 6248/LustreME4 -varastoinnin ja päivitetyn putkiston myötä.

Kuva 4: Cascade Lake 6248:n/LustreME4:n ja Skylake 6148:n/H600:n suoritustehon vertailu 8x C6420:n kanssa Kuva 4: Läpäisykyvyn vertailu 8x C6420:een Cascade Lake 6248:n/LustreME4:n ja Skylake 6148:n/H600

:n välilläCuffmerge-vaihe ei hidastu näytteiden määrän kasvaessa, kun taas Cuffdiffin ja Cuffnormin askeleet hidastuvat merkittävästi. Erityisesti Cuffdiffin vaiheesta tulee putkilinjan pullonkaula, koska ajoaika kasvaa eksponentiaalisesti (kuva 5). Vaikka Cuffnormin ajoaika kasvaa eksponentiaalisesti kuten Cuffdiff, sitä ei voida jättää huomiotta, koska Cuffnormin ajoaikaa rajoittaa Cuffdiffin ajoaika. Cuffquant-askeleen lisääminen paransi Cuffdiffin käyttöaikaa merkittävästi. 30 tuntia lyhyempi käyttöaika Cuffdiff stepillä, ja Cuffnorm suoritti 20 tuntia nopeammin Cuffquant stepillä. Vaikka Cuffnormin suorituskyvyn kasvu ei ole näkyvissä, koska Cuffdiff ja Cuffnorm alkavat samanaikaisesti.

Kuva 5 Ajoajan lisäys Cuffdiffissa ja Cuffnormissa
Kuva 5 :Ajonaikainen lisäys Cuffdiffissa ja Cuffnormissa
Johtopäätös
Suoritustehotestin tulokset osoittavat, että 8 solmua PowerEdge C6420 -solmua, joissa on Lustre-tallennustila, voivat käsitellä noin 2,7 miljardia fragmenttia 64 näytteestä ~50 miljoonalla parillisella lukukerralla (25 MF) smokkiputken kautta kuvan 1 mukaisesti. Koska Tuxedo-putkisto on suhteellisesti nopeampi kuin muut suositut putkistot, on vaikea yleistää tai hyödyntää näitä tuloksia HPC-järjestelmän tarkkaan mitoitukseen. Tulokset voivat kuitenkin auttaa tekemään karkean arvion HPC-järjestelmän koosta.

Varat
1. RNA-Seq-differentiaaligeeniekspressio: Perusopetusohjelma. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
pikriinihappo. RNA-Seq-vertailutesti Dell EMC Ready Bundle -paketin avulla HPC-biotieteille. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC -valmis ratkaisu HPC:n Luster-tallennukseen. [Linkki kuollut 7.7.2024]

Huomautus: nämä valitaan satunnaisesti näytejoukosta ilman merkityksellisiä assosiaatioita.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC Ready Solution -ratkaisu HPC-biotieteille: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä

概要: Tämä artikkeli kattaa raportin "Dell EMC Ready Solution for HPC Life Sciences: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä".

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC Ready Solution -ratkaisu HPC-biotieteille: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä

概要: Tämä artikkeli kattaa raportin "Dell EMC Ready Solution for HPC Life Sciences: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä".

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス