Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution -ratkaisu HPC-biotieteille: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä

Summary: Tämä artikkeli kattaa raportin "Dell EMC Ready Solution for HPC Life Sciences: Smokkiputki Cascade Lake -suorittimella ja Lustre/ME4 Refreshillä".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Huomautus: Artikkelin kirjoitti Kihoon Yoon HPC and AI Innovation Labista joulukuussa 2019
Uusi laitteisto ja päivitetty myyntiputki yhdessä lisäävät suorituskykyä 3 kertaa enemmän kuin edellisessä valmiissa ratkaisussa.

Yleiskatsaus
Geeniekspressioanalyysi on yhtä tärkeää kuin yhden nukleotidin polymorfismin (SNP), insertion/deleetion (indel) tai kromosomirakenteen tunnistaminen. Lopulta kaikki fysiologiset ja biokemialliset tapahtumat riippuvat lopullisista geeniekspressiotuotteista, proteiineista. Vaikka useimmilla nisäkkäillä on ylimääräinen kontrolloiva kerros ennen proteiinien ilmentymistä, tieto siitä, kuinka monta transkriptiota järjestelmässä on, auttaa karakterisoimaan solun biokemiallista tilaa. Ihannetapauksessa teknologian avulla voimme kvantifioida solun kokonaiset proteiinit, jotka voisivat menestyä biotieteiden kehityksessä merkittävästi; Olemme kuitenkin kaukana sen saavuttamisesta. 
Tässä blogissa testaamme yhtä suosittua RNA-Seq-data-analyysiputkea, joka tunnetaan nimellä Tuxedo-putki (1). Tuxedo-putkilinjaTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon. tarjoaa joukon työkaluja erilaisten RNA-Seq-tietojen analysointiin, mukaan lukien lyhytlukukartoitus, liitosliitosten tunnistaminen, transkription ja isoformin havaitseminen, differentiaalinen ilmentyminen, visualisoinnit ja laadunvalvontamittarit. Myyntiputken yksityiskohtaiset vaiheet on esitetty kuvassa 1. Tämä päivitetty versio Tuxedo-putkesta sisältää Cuffquant-vaiheen verrattuna edellisessä blogissa testattuun vanhaan versioon (2).

Kuva 1: Päivitetty smokkiputki mansettiportillaKuva 1: Päivitetty smokkiputki, jossa on mansettivaihe

Testiklusterin konfiguraatiot on esitetty taulukossa 1.

Taulukko 1 Testattu laskentasolmun kokoonpano

Dell EMC PowerEdge C6420

Suoritin

2 x Xeon® Gold 6248 20C 2,5 GHz (Cascade Lake)

RAM

12 x 16 Gt @2 933 MT/s

Käyttöjärjestelmä

RHEL 7,6

Verkon liitäntä

Intel® Omni-Path

BIOS-järjestelmän profiili

Optimoitu suorituskyky

Looginen suoritin

Ei käytössä

Virtualisointitekniikka

Ei käytössä

Tofat

2.1.1

rusetti2

2.2.5

R

3.6

Biojohde-Cummerbund

2.26.0


Testatut laskentasolmut yhdistettiin Dell EMC Ready Solution for Lustre Storage -ratkaisuun Intel® Omni-Pathin kautta (3). Tallennusvälineen yhteenvetokokoonpano on lueteltu taulukossa 2.

Taulukko 2 Lustren tallennusratkaisun laitteisto- ja ohjelmistotiedot

Dell EMC:n valmis ratkaisu Luster-tallennukseen

solmujen määrä

1 x Dell EMC PowerEdge R640 Lustren (IML)
integroituna hallinnoijana2x Dell EMC PowerEdge R740 metatietopalvelimena (MDS)
2x Dell EMC PowerEdge R740 objektitallennuspalvelimena (OSS)

Suorittimet

IML-palvelin: Kaksi Intel Xeon Gold 5118 @ 2.3 GHz
MDS- ja OSS-palvelimet: Kaksi Intel Xeon Gold 6136 @ 3.00 GHz

Muisti

IML-palvelin: 12 x 8 Gt:n 2 666 MT/s:n DDR4 RDIMM -muistia
MDS- ja OSS-palvelimet: 24 x 16 GiB, 2 666 MT/s:n DDR4 RDIMM -muistia

Ulkoinen tallennuslaite
Ohjaimet

2 x Dell 12 Gb/s:n SAS HBA:ta (kussakin MDS:ssä)
4 x Dell 12 Gb/s:n SAS HBA:ta (kussakin OSS:ssä)

Objektitallennus
Kotelot

4 x ME4084, yhteensä 336 x 8 Tt:n NL SAS HDD, 7 200 RPM

Metatietojen tallennus
liite

1 x ME4024 ja 24 x 960 Gt:n SAS SSD -asemat. Tukee jopa 4,688 miljardia tiedostoa/inodeja

RAID-ohjaimet

Duplex RAID ME4084- ja ME4024-kehyksissä

Käyttöjärjestelmä

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64

Kernel-versio

3.10.0-862.el7.x86_64

BIOS-versio

1.4.5

Intel Omni-Path
IFS-versio

10.8.0.0

Lustren tiedostojärjestelmä
versio

2.10.4

IML-versio

4.0.7.0


RNA-Seq-putkilinjan suorituskykytutkimus ei ole vähäpätöinen, koska luonteen työnkulku edellyttää ei-identtisiä syötetiedostoja. 185 RNA-Seq-paripäätyistä lukudataa kerätään julkisesta tietovarastostaTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.. Kaikki luetut datatiedostot sisältävät noin 25 miljoonaa fragmenttia (MF) ja niillä on samanlaiset lukupituudet. Näytteet testiä varten, joka valittiin satunnaisesti 185 parillisen lukutiedoston joukosta. Vaikka näillä satunnaisesti valituilla tiedoilla ei ole biologista merkitystä, varmasti nämä tiedot, joissa on korkea melutaso, asettavat testit pahimpaan mahdolliseen skenaarioon.
Suorituskyvyn arviointi
Kahden näytteen testi
Kuvassa 2 esitetään kunkin vaiheen kesto. Testi suoritettiin kahdessa laskentasolmussa kahdella näytteellä, jotka sisälsivät noin 25 miljoonaa luettua RNA-Seq-dataa. Tofat-vaihe alkaa jokaiselle näytteelle laskentasolmussa rinnakkain. Tämän jälkeen kalvosinnapit alkavat Tophatin valmistuttua. Cuffmerge-vaihe yhdistää kahden kalvosinnapin juoksun tulokset. Mansettivaihe lisätään kvantifioimaan geeniekspressiot kussakin näytteessä, ja tuloksia tutkitaan tarkemmin Cuffdiffin ja Cuffnormin vaiheissa. Viimeinen vaihe, CummeRbund on tilastollisen analyysin vaihe CummeRbund R-paketista, ja se luo visualisoidun raportin kuvan 2 mukaisesti.

Kuva 2 Smokkiputken kokonaiskäyttöaika kahdella näytteellä: SRR1608490 ja SRR934809.Kuva 2 Smokkiputken kokonaiskäyttöaika kahdella näytteellä: SRR1608490 ja SRR934809.

Kuvassa 3 on esitetty eri tavalla ilmentyneet geenit 8 näyteajosta (jokainen näyte koostuu 4 kaksoiskappaleesta) punaisella huomattavasti pienemmillä p-arvoilla (Y-akseli) verrattuna muihin mustalla kuvattuihin geeniekspressioihin1. X-akseli on logaritmikannan 2 poimumuutokset, ja nämä kunkin geenin taitosmuutokset piirretään p-arvoja vasten. Enemmän näytteitä tuo paremman geeniekspressioarvion. Oikea ylempi kuvaaja on geeniekspressio näytteessä 2 verrattuna näytteeseen 1, kun taas vasen alempi kuvaaja on geeniekspressio näytteessä 1 verrattuna näytteeseen 2. Geeniekspressiot mustissa pisteissä eivät eroa merkittävästi molemmissa näytteissä.


Kuva 3 Cuffdiffin tulosten tulivuorikaavioKuva 3 Cuffdiffin tulosten
tulivuorikaavioLäpäisytesti – Yksi putkisto, jossa on enemmän kuin kaksi näytettä, biologiset ja tekniset kaksoiskappaleet
Tyypilliset RNA-Seq-tutkimukset koostuvat useista näytteistä, joskus 100 eri näytteestä, normaali vs. tauti tai käsittelemätön vs. käsitelty näyte. Näillä näytteillä on yleensä korkea melutaso biologisista syistään; Siksi analyysi edellyttää voimakasta tietojen esikäsittelyä.
 
Testasimme erilaisia näytemääriä (kaikki erilaisia RNA-Seq-tietoja, jotka on valittu 185 parillisen pään lukutietojoukosta) nähdäksemme, kuinka paljon tietoja PowerEdge C6420 -klusterin 8 solmua voi käsitellä. Kuten kuvasta 4 käy ilmi, 2, 4, 8, 16, 32 ja 64 näytteen ajoajat kasvavat eksponentiaalisesti, kun näytteiden määrä kasvaa. Miljardien fragmenttien määrä päivässä kasvoi lähes kolminkertaiseksi Cascade Lake 6248/LustreME4 -varastoinnin ja päivitetyn putkiston myötä.

Kuva 4: Cascade Lake 6248:n/LustreME4:n ja Skylake 6148:n/H600:n suoritustehon vertailu 8x C6420:n kanssaKuva 4: Läpäisykyvyn vertailu 8x C6420:een Cascade Lake 6248:n/LustreME4:n ja Skylake 6148:n/H600

:n välilläCuffmerge-vaihe ei hidastu näytteiden määrän kasvaessa, kun taas Cuffdiffin ja Cuffnormin askeleet hidastuvat merkittävästi. Erityisesti Cuffdiffin vaiheesta tulee putkilinjan pullonkaula, koska ajoaika kasvaa eksponentiaalisesti (kuva 5). Vaikka Cuffnormin ajoaika kasvaa eksponentiaalisesti kuten Cuffdiff, sitä ei voida jättää huomiotta, koska Cuffnormin ajoaikaa rajoittaa Cuffdiffin ajoaika.  Cuffquant-askeleen lisääminen paransi Cuffdiffin käyttöaikaa merkittävästi. 30 tuntia lyhyempi käyttöaika Cuffdiff stepillä, ja Cuffnorm suoritti 20 tuntia nopeammin Cuffquant stepillä. Vaikka Cuffnormin suorituskyvyn kasvu ei ole näkyvissä, koska Cuffdiff ja Cuffnorm alkavat samanaikaisesti.


Kuva 5 Ajoajan lisäys Cuffdiffissa ja Cuffnormissa
Kuva 5 :Ajonaikainen lisäys Cuffdiffissa ja Cuffnormissa
Johtopäätös
Suoritustehotestin tulokset osoittavat, että 8 solmua PowerEdge C6420 -solmua, joissa on Lustre-tallennustila, voivat käsitellä noin 2,7 miljardia fragmenttia 64 näytteestä ~50 miljoonalla parillisella lukukerralla (25 MF) smokkiputken kautta kuvan 1 mukaisesti. Koska Tuxedo-putkisto on suhteellisesti nopeampi kuin muut suositut putkistot, on vaikea yleistää tai hyödyntää näitä tuloksia HPC-järjestelmän tarkkaan mitoitukseen. Tulokset voivat kuitenkin auttaa tekemään karkean arvion HPC-järjestelmän koosta.
 
Varat
1. RNA-Seq-differentiaaligeeniekspressio: Perusopetusohjelma. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Tämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
pikriinihappo. RNA-Seq-vertailutesti Dell EMC Ready Bundle -paketin avulla HPC-biotieteille. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Tämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
3. Dell EMC -valmis ratkaisu HPC:n Luster-tallennukseen. [Linkki kuollut 7.7.2024]

Huomautus: nämä valitaan satunnaisesti näytejoukosta ilman merkityksellisiä assosiaatioita.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.