Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Genomitietojen analysoinnin kiihdyttäminen NVIDIA Clara Parabricks -ohjelmistolla käyttäen Dell EMC:n DSS 8440 -palvelinta ja NVIDIA T4 -grafiikkasuorittimia

Summary: Artikkeli sisältää tietoja genomitietojen analysoinnin kiihdyttämisestä käyttämällä NVIDIA Parabricks -ohjelmistoa Dell EMC:n DSS 8440 -palvelimessa, jossa on NVIDIA T4 -grafiikkasuorittimet. ...

This article applies to   This article does not apply to 

Instructions

Yleiskuvaus

Ensimmäinen NGS (Next Generation Sequencing) -tietojen käsittelyvaihe on Primary Analysis. Vaihe koskee sekvensointilaitetta ja luo useita FASTQ-tiedostoja, jotka sisältävät sekvensointilukemia. Seuraavassa vaiheessa (Secondary Analysis) FASTQ-sekvensointilukemat yhdistetään viitegenomiin tai viitetranskriptomiin. Lisäkäsittelyssä tunnistetaan muunnelmia eli eroja kohdenäytteen ja viitteen välillä. Muunnelmat merkitään ja niitä tulkitaan myöhemmissä downstream-vaiheissa. Yksittäisen näytteen toissijaisen analyysin aika vaihtelee tietojen koon, käytettävissä olevien laskentaresurssien, ohjelmiston ja analyysityönkulun mukaan tunneista päiviin. 

Toissijaiseen analyysiin tarvitaan runsaasti laskenta- ja tallennusresursseja erityisesti, kun käsitellään satoja tai tuhansia genomeja. Toissijaisen analyysin pullonkauloja voi välttää useilla tavoilla. Laitteistokiihdytystä grafiikkasuorittimien tai FPGA:iden avulla on alettu käyttää vasta viime aikoina, koska laitteistokiihdyttimet edellyttävät mukautettua ohjelmistoa. Parabricksin genomiikkaohjelmisto, jonka NVIDIA osti vuonna 2019, sisältää ensimmäisenä ohjelmistopinon, joka suorittaa monenlaisia genomianalysoinnin työnkulkuja grafiikkasuorittimien kanssa. Parabricks-ohjelmisto testattiin Dell EMC:n PowerEdge C4140/4x NVIDIA® Tesla® V100 -grafiikkasuorittimilla noin kaksi vuotta sitten. Dell otti palvelin- ja tallennusratkaisuissaan käyttöön monia teknisiä uudistuksia, ja NVIDIA Clara Parabricks on julkaissut vakaita versioita, joissa on parannettu kiihdytys ja muunnelmien tunnistimet. Esimerkiksi usean grafiikkasuorittimen palvelin, joka perustuu Dell EMC DSS 8440 -palvelimeen ja jossa on NVIDIA® Tesla® T4 -grafiikkasuorittimet, näyttää lupaavalta ratkaisulta toissijaisen analyysin kiihdyttämiseen. Lisäksi sillä on houkutteleva hinnan ja suorituskyvyn suhde.  Tässä blogissa kerrotaan uudesta viitearkkitehtuurista ja benchmark-testituloksista, kun NVIDIA Clara Parabricksin toissijainen analyysi tehdään usean Tesla® T4 -grafiikkasuorittimen DSS 8440 -palvelimella, jossa on Dell EMC Isilon F800 -tallennustila.

Viitearkkitehtuuri

Kuvassa 1 näkyy testattu viitearkkitehtuuri. Arkkitehtuuri on modulaarinen ja helposti skaalattava. NVIDIA Clara Parabricks -sovellusohjelmisto käyttää yhtä tai useaa grafiikkasuoritinta, mikä helpottaa skaalaamista merkittävästi. Laitteistossa on Dell EMC PowerEdge R640 hallintasolmuna, DSS 8440 -palvelin grafiikkasuorittimen laskentaa varten ja Dell EMC Isilon F800 -tallennustila.


Kuva 1 Testattu viitearkkitehtuuri


DSS 8440 4U -palvelimeen, jossa on 2 suorittimen kantaa, mahtuu enintään 10 alan johtavaa NVIDIA® Tesla® V100S Tensor -ytimellistä grafiikkasuoritinta, enintään 10 NVIDIA® Quadro RTX™ -grafiikkasuoritinta tai enintään 16 NVIDIA Tesla T4 -grafiikkasuoritinta, mikä takaa erinomaisen tehon. DSS 8440 -palvelimen yksityiskohtainen kokoonpano näkyy taulukossa 1.

 
Dell EMC DSS 8440
Suoritin 2x Xeon® Gold 6248R, 24 ydintä, 3,0 GHz
RAM 24x 64 Gt (2933 MTps)
Käyttöjärjestelmä Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS-järjestelmän profiili Optimoitu suorituskyky
Looginen suoritin Poissa käytöstä
Virtualisointitekniikka Poissa käytöstä
Kiihdyttimet 16x NVIDIA® Tesla® T4 -grafiikkasuoritin
Parabricks v3.0.0.05

Kaksi Z9100-ON-kytkintä tarjoaa yhteyden laskentasolmun ja Isilon F800 -tallennusklusterin välille. Hallintaan käytetään toista kytkintä, N2248X-ON.

NGS-tiedot

Toissijaisen analyysin keston benchmark-testaustiedot koostuivat kolmesta ihmisen WGS (koko genomin sekvensointi) -tietojoukosta, ERR091571, SRR3124837 ja ERR194161, jotka kattoivat järjestyksessä 10x, 30x ja 50x näytteestä. Nämä tietojoukot ovat saatavilla ENA (European Nucleotide Archive) -arkistosta.

Suorituskyvyn arviointi

Ohjelmiston parannukset lyhentävät kestoa
NVIDIA lisää edelleen ohjelmiston parannuksia NVIDIA Clara Parabricksiin. Kuvassa 2 näkyy, miten kesto lyhenee kahden Parabricks-version välillä, kun ne suorittavat ituratakanavaa käyttäen testiympäristöä, jossa on Dell PowerEdge C4140 -palvelin ja neljä V100-grafiikkasuoritinta. Siirtyminen versiosta 2.1.0 versioon 3.0.0 lyhensi kestoa 42 %.


Kuva 2 Uusimman Parabricks-ituratamuunnelman version suoritusaika.

DSS 8440 -palvelimen suorituskyvyt kuudellatoista T4-grafiikkasuorittimella

Kun NVIDIA Clara Parabricks käyttää toissijaiseen analyysiin yhtä T4-grafiikkasuoritinta, analyysi kestää noin 30 % kauemmin kuin yhdellä V100-grafiikkasuorittimella. Kaksi T4-grafiikkasuoritinta tuottaa kuitenkin noin 10 % teraFLOPSia (TFLOPS) enemmän kuin yksi V100-grafiikkasuoritin noin puolet edullisemmin. DSS 8440 -palvelimessa on enintään 16 PCIe-paikkaa, minkä ansiosta voidaan suunnitella T4-grafiikkasuorittimeen perustuva palvelin, joka tuottaa samankaltaisen suoritusajan kuin C4140-järjestelmä, jossa on neljä V100-grafiikkasuoritinta, mutta edullisemmin.
Parabricks-iturata-analyysi tehtiin PowerEdge DSS 8440 -palvelimella, jossa oli 16 T4-grafiikkasuoritinta. Kunkin edellä kuvatun WGS-näytetietojoukon kohdalla kirjattiin suoritusaika käytettäessä 1, 2, 4, 8 ja 16 T4-grafiikkasuoritinta kuhunkin toissijaiseen analyysiin. Tulokset näkyvät kuvissa 3–5. Yleisesti suoritusaika ei skaalaudu lineaarisesti, kun kuhunkin analyysiin käytettävien grafiikkasuorittimien määrä kasvaa. Skaalauskuvio on samankaltainen kuin tilanne, jossa näytekohtaisten tietojen määrä kasvaa 10x:sta 50x:ään. 
Vaikka se ei näykään tässä, aiempi Dell EMC:n tutkimus Parabricksin suoritusaikatuloksista käytettäessä vähintään kahdeksaa V100-grafiikkasuoritinta kussakin analyysissä, skaalaus ei ollut yhtä tehokasta kuin käytettäessä T4-grafiikkasuorittimia. Lisätesteissä havaittiin, että kuudella T4-grafiikkasuorittimella saatiin lähes samat suoritusaikatulokset kuin neljällä V100-grafiikkasuorittimella.


Kuva 3 Suorituskykyvertailu: 10x WGS


Kuva 4 Suorituskykyvertailu: 30x WGS


Kuva 5 Suorituskykyvertailu: 50x WGS


Johtopäätös

DSS 8440, jossa on kuusitoista T4-grafiikkasuoritinta, pystyy käsittelemään kolmekymmentä 50x-ihmisgenomia päivässä. Vastaavaan päiväkohtaiseen tulokseen käytettäessä perinteistä x86-suoritinarkkitehtuuria tarvitaan kymmenen PowerEdge C6420 -laskentasolmua. Koko tätä arkkitehtuuria käsitellään aiemmassa Dellin julkaisussa.
Kaikkien kuudentoista T4-grafiikkasuorittimen käyttäminen yhden näytteen käsittelyyn ei kuitenkaan kannata, koska 16 grafiikkasuorittimen käyttäminen kuhunkin analyysiin on parhaimmillaankin vain 10 % nopeampaa kuin käytettäessä 8 grafiikkasuoritinta. DSS 8440 -palvelimen rakenne sallii useita toissijaisia analyysejä rinnakkain. Määrittämällä kunkin näytteen käsittelyyn kahdeksan T4-grafiikkasuoritinta päiväkohtainen analyysitulos nousee noin 50 genomiin. Käyttämällä kunkin näytteen analyysiin neljä grafiikkasuoritinta päiväkohtainen analyysitulos nousee noin 70 genomiin. On tärkeää huomata myös, että päiväkohtainen tulos käytettäessä T4-grafiikkasuorittimia maksaa alle puolet siitä, mitä V100-grafiikkasuorittimen käyttö maksaa.
Nopeuden lisäksi yhteensopivuus muiden analyysityökalujen kanssa on keskeisen tärkeää tulosten vertailtavuuden kannalta. Parabricks-iturata-analyysin tulokset ovat lähes identtiset aiempaan testaukseen käytetyn tunnetun BWA-GATK-haplotyypin tunnistinanalyysin kanssa.  Lisäksi halusimme verrata Parabricks-muunnelmantunnistustuloksia muihin työkalusarjoihin (esimerkiksi samtools/mpileup).  Näillä kahdella keskenään täysin erilaisella työkalulla saadaan noin 90-prosenttisesti samat tulokset tunnistetuista muunnelmista, ja vaihtelu monilla tunnetuilla genomialueilla, jotka sisältävät tärkeitä geenejä, ovat yli 99-prosenttisesti samat.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640