Huomautus: Artikkelin kirjoitti Kihoon Yoon HPC and AI Innovation Labista joulukuussa 2019
Uusi laitteisto ja päivitetty myyntiputki yhdessä lisäävät suorituskykyä 3 kertaa enemmän kuin edellisessä valmiissa ratkaisussa.
Yleiskatsaus
Geeniekspressioanalyysi on yhtä tärkeää kuin yhden nukleotidin polymorfismin (SNP), insertion/deleetion (indel) tai kromosomirakenteen tunnistaminen. Lopulta kaikki fysiologiset ja biokemialliset tapahtumat riippuvat lopullisista geeniekspressiotuotteista, proteiineista. Vaikka useimmilla nisäkkäillä on ylimääräinen kontrolloiva kerros ennen proteiinien ilmentymistä, tieto siitä, kuinka monta transkriptiota järjestelmässä on, auttaa karakterisoimaan solun biokemiallista tilaa. Ihannetapauksessa teknologian avulla voimme kvantifioida solun kokonaiset proteiinit, jotka voisivat menestyä biotieteiden kehityksessä merkittävästi; Olemme kuitenkin kaukana sen saavuttamisesta.
Tässä blogissa testaamme yhtä suosittua RNA-Seq-data-analyysiputkea, joka tunnetaan nimellä Tuxedo-putki (1). Tuxedo-putkilinja tarjoaa joukon työkaluja erilaisten RNA-Seq-tietojen analysointiin, mukaan lukien lyhytlukukartoitus, liitosliitosten tunnistaminen, transkription ja isoformin havaitseminen, differentiaalinen ilmentyminen, visualisoinnit ja laadunvalvontamittarit. Myyntiputken yksityiskohtaiset vaiheet on esitetty kuvassa 1. Tämä päivitetty versio Tuxedo-putkesta sisältää Cuffquant-vaiheen verrattuna edellisessä blogissa testattuun vanhaan versioon (2).
Kuva 1: Päivitetty smokkiputki, jossa on mansettivaihe
Testiklusterin konfiguraatiot on esitetty taulukossa 1.
Taulukko 1 Testattu laskentasolmun kokoonpano |
|
Dell EMC PowerEdge C6420 |
|
Suoritin |
2 x Xeon® Gold 6248 20C 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 Gt @2 933 MT/s |
Käyttöjärjestelmä |
RHEL 7,6 |
Verkon liitäntä |
Intel® Omni-Path |
BIOS-järjestelmän profiili |
Optimoitu suorituskyky |
Looginen suoritin |
Ei käytössä |
Virtualisointitekniikka |
Ei käytössä |
Tofat |
2.1.1 |
rusetti2 |
2.2.5 |
R |
3.6 |
Biojohde-Cummerbund |
2.26.0 |
Testatut laskentasolmut yhdistettiin Dell EMC Ready Solution for Lustre Storage -ratkaisuun Intel® Omni-Pathin kautta (3). Tallennusvälineen yhteenvetokokoonpano on lueteltu taulukossa 2.
Taulukko 2 Lustren tallennusratkaisun laitteisto- ja ohjelmistotiedot |
|
Dell EMC:n valmis ratkaisu Luster-tallennukseen |
|
solmujen määrä |
1 x Dell EMC PowerEdge R640 Lustren (IML) |
Suorittimet |
IML-palvelin: Kaksi Intel Xeon Gold 5118 @ 2.3 GHz |
Muisti |
IML-palvelin: 12 x 8 Gt:n 2 666 MT/s:n DDR4 RDIMM -muistia |
Ulkoinen tallennuslaite |
2 x Dell 12 Gb/s:n SAS HBA:ta (kussakin MDS:ssä) |
Objektitallennus |
4 x ME4084, yhteensä 336 x 8 Tt:n NL SAS HDD, 7 200 RPM |
Metatietojen tallennus |
1 x ME4024 ja 24 x 960 Gt:n SAS SSD -asemat. Tukee jopa 4,688 miljardia tiedostoa/inodeja |
RAID-ohjaimet |
Duplex RAID ME4084- ja ME4024-kehyksissä |
Käyttöjärjestelmä |
CentOS 7.5 x86_64 |
Kernel-versio |
3.10.0-862.el7.x86_64 |
BIOS-versio |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustren tiedostojärjestelmä |
2.10.4 |
IML-versio |
4.0.7.0 |
RNA-Seq-putkilinjan suorituskykytutkimus ei ole vähäpätöinen, koska luonteen työnkulku edellyttää ei-identtisiä syötetiedostoja. 185 RNA-Seq-paripäätyistä lukudataa kerätään julkisesta tietovarastosta. Kaikki luetut datatiedostot sisältävät noin 25 miljoonaa fragmenttia (MF) ja niillä on samanlaiset lukupituudet. Näytteet testiä varten, joka valittiin satunnaisesti 185 parillisen lukutiedoston joukosta. Vaikka näillä satunnaisesti valituilla tiedoilla ei ole biologista merkitystä, varmasti nämä tiedot, joissa on korkea melutaso, asettavat testit pahimpaan mahdolliseen skenaarioon.
Suorituskyvyn arviointi
Kahden näytteen testi
Kuvassa 2 esitetään kunkin vaiheen kesto. Testi suoritettiin kahdessa laskentasolmussa kahdella näytteellä, jotka sisälsivät noin 25 miljoonaa luettua RNA-Seq-dataa. Tofat-vaihe alkaa jokaiselle näytteelle laskentasolmussa rinnakkain. Tämän jälkeen kalvosinnapit alkavat Tophatin valmistuttua. Cuffmerge-vaihe yhdistää kahden kalvosinnapin juoksun tulokset. Mansettivaihe lisätään kvantifioimaan geeniekspressiot kussakin näytteessä, ja tuloksia tutkitaan tarkemmin Cuffdiffin ja Cuffnormin vaiheissa. Viimeinen vaihe, CummeRbund on tilastollisen analyysin vaihe CummeRbund R-paketista, ja se luo visualisoidun raportin kuvan 2 mukaisesti.
Kuva 2 Smokkiputken kokonaiskäyttöaika kahdella näytteellä: SRR1608490 ja SRR934809.
Kuvassa 3 on esitetty eri tavalla ilmentyneet geenit 8 näyteajosta (jokainen näyte koostuu 4 kaksoiskappaleesta) punaisella huomattavasti pienemmillä p-arvoilla (Y-akseli) verrattuna muihin mustalla kuvattuihin geeniekspressioihin1. X-akseli on logaritmikannan 2 poimumuutokset, ja nämä kunkin geenin taitosmuutokset piirretään p-arvoja vasten. Enemmän näytteitä tuo paremman geeniekspressioarvion. Oikea ylempi kuvaaja on geeniekspressio näytteessä 2 verrattuna näytteeseen 1, kun taas vasen alempi kuvaaja on geeniekspressio näytteessä 1 verrattuna näytteeseen 2. Geeniekspressiot mustissa pisteissä eivät eroa merkittävästi molemmissa näytteissä.
Kuva 3 Cuffdiffin tulosten
tulivuorikaavioLäpäisytesti – Yksi putkisto, jossa on enemmän kuin kaksi näytettä, biologiset ja tekniset kaksoiskappaleet
Tyypilliset RNA-Seq-tutkimukset koostuvat useista näytteistä, joskus 100 eri näytteestä, normaali vs. tauti tai käsittelemätön vs. käsitelty näyte. Näillä näytteillä on yleensä korkea melutaso biologisista syistään; Siksi analyysi edellyttää voimakasta tietojen esikäsittelyä.
Testasimme erilaisia näytemääriä (kaikki erilaisia RNA-Seq-tietoja, jotka on valittu 185 parillisen pään lukutietojoukosta) nähdäksemme, kuinka paljon tietoja PowerEdge C6420 -klusterin 8 solmua voi käsitellä. Kuten kuvasta 4 käy ilmi, 2, 4, 8, 16, 32 ja 64 näytteen ajoajat kasvavat eksponentiaalisesti, kun näytteiden määrä kasvaa. Miljardien fragmenttien määrä päivässä kasvoi lähes kolminkertaiseksi Cascade Lake 6248/LustreME4 -varastoinnin ja päivitetyn putkiston myötä.
Kuva 4: Läpäisykyvyn vertailu 8x C6420:een Cascade Lake 6248:n/LustreME4:n ja Skylake 6148:n/H600
:n välilläCuffmerge-vaihe ei hidastu näytteiden määrän kasvaessa, kun taas Cuffdiffin ja Cuffnormin askeleet hidastuvat merkittävästi. Erityisesti Cuffdiffin vaiheesta tulee putkilinjan pullonkaula, koska ajoaika kasvaa eksponentiaalisesti (kuva 5). Vaikka Cuffnormin ajoaika kasvaa eksponentiaalisesti kuten Cuffdiff, sitä ei voida jättää huomiotta, koska Cuffnormin ajoaikaa rajoittaa Cuffdiffin ajoaika. Cuffquant-askeleen lisääminen paransi Cuffdiffin käyttöaikaa merkittävästi. 30 tuntia lyhyempi käyttöaika Cuffdiff stepillä, ja Cuffnorm suoritti 20 tuntia nopeammin Cuffquant stepillä. Vaikka Cuffnormin suorituskyvyn kasvu ei ole näkyvissä, koska Cuffdiff ja Cuffnorm alkavat samanaikaisesti.
Kuva 5 :Ajonaikainen lisäys Cuffdiffissa ja Cuffnormissa
Johtopäätös
Suoritustehotestin tulokset osoittavat, että 8 solmua PowerEdge C6420 -solmua, joissa on Lustre-tallennustila, voivat käsitellä noin 2,7 miljardia fragmenttia 64 näytteestä ~50 miljoonalla parillisella lukukerralla (25 MF) smokkiputken kautta kuvan 1 mukaisesti. Koska Tuxedo-putkisto on suhteellisesti nopeampi kuin muut suositut putkistot, on vaikea yleistää tai hyödyntää näitä tuloksia HPC-järjestelmän tarkkaan mitoitukseen. Tulokset voivat kuitenkin auttaa tekemään karkean arvion HPC-järjestelmän koosta.
Varat
1. RNA-Seq-differentiaaligeeniekspressio: Perusopetusohjelma. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
pikriinihappo. RNA-Seq-vertailutesti Dell EMC Ready Bundle -paketin avulla HPC-biotieteille. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC -valmis ratkaisu HPC:n Luster-tallennukseen. [Linkki kuollut 7.7.2024]
Huomautus: nämä valitaan satunnaisesti näytejoukosta ilman merkityksellisiä assosiaatioita.