Yleiskuvaus
Ensimmäinen NGS (Next Generation Sequencing) -tietojen käsittelyvaihe on Primary Analysis. Vaihe koskee sekvensointilaitetta ja luo useita FASTQ-tiedostoja, jotka sisältävät sekvensointilukemia. Seuraavassa vaiheessa (Secondary Analysis) FASTQ-sekvensointilukemat yhdistetään viitegenomiin tai viitetranskriptomiin. Lisäkäsittelyssä tunnistetaan muunnelmia eli eroja kohdenäytteen ja viitteen välillä. Muunnelmat merkitään ja niitä tulkitaan myöhemmissä downstream-vaiheissa. Yksittäisen näytteen toissijaisen analyysin aika vaihtelee tietojen koon, käytettävissä olevien laskentaresurssien, ohjelmiston ja analyysityönkulun mukaan tunneista päiviin.
Toissijaiseen analyysiin tarvitaan runsaasti laskenta- ja tallennusresursseja erityisesti, kun käsitellään satoja tai tuhansia genomeja. Toissijaisen analyysin pullonkauloja voi välttää useilla tavoilla. Laitteistokiihdytystä grafiikkasuorittimien tai FPGA:iden avulla on alettu käyttää vasta viime aikoina, koska laitteistokiihdyttimet edellyttävät mukautettua ohjelmistoa. Parabricksin genomiikkaohjelmisto, jonka NVIDIA osti vuonna 2019, sisältää ensimmäisenä ohjelmistopinon, joka suorittaa monenlaisia genomianalysoinnin työnkulkuja grafiikkasuorittimien kanssa. Parabricks-ohjelmisto testattiin
Dell EMC:n PowerEdge C4140/4x NVIDIA® Tesla® V100 -grafiikkasuorittimilla noin kaksi vuotta sitten. Dell otti palvelin- ja tallennusratkaisuissaan käyttöön monia teknisiä uudistuksia, ja
NVIDIA Clara Parabricks on julkaissut vakaita versioita, joissa on parannettu kiihdytys ja muunnelmien tunnistimet. Esimerkiksi usean grafiikkasuorittimen palvelin, joka perustuu
Dell EMC DSS 8440 -palvelimeen ja jossa on NVIDIA® Tesla® T4 -grafiikkasuorittimet, näyttää lupaavalta ratkaisulta toissijaisen analyysin kiihdyttämiseen. Lisäksi sillä on houkutteleva hinnan ja suorituskyvyn suhde. Tässä blogissa kerrotaan uudesta viitearkkitehtuurista ja benchmark-testituloksista, kun NVIDIA Clara Parabricksin toissijainen analyysi tehdään usean Tesla® T4 -grafiikkasuorittimen DSS 8440 -palvelimella, jossa on
Dell EMC Isilon F800 -tallennustila.
Viitearkkitehtuuri
Kuvassa 1 näkyy testattu viitearkkitehtuuri. Arkkitehtuuri on modulaarinen ja helposti skaalattava. NVIDIA Clara Parabricks -sovellusohjelmisto käyttää yhtä tai useaa grafiikkasuoritinta, mikä helpottaa skaalaamista merkittävästi. Laitteistossa on
Dell EMC PowerEdge R640 hallintasolmuna, DSS 8440 -palvelin grafiikkasuorittimen laskentaa varten ja Dell EMC Isilon F800 -tallennustila.
Kuva 1 Testattu viitearkkitehtuuri
DSS 8440 4U -palvelimeen, jossa on 2 suorittimen kantaa, mahtuu enintään 10 alan johtavaa NVIDIA® Tesla® V100S Tensor -ytimellistä grafiikkasuoritinta, enintään 10 NVIDIA® Quadro RTX™ -grafiikkasuoritinta tai enintään 16 NVIDIA Tesla T4 -grafiikkasuoritinta, mikä takaa erinomaisen tehon. DSS 8440 -palvelimen yksityiskohtainen kokoonpano näkyy taulukossa 1.
Dell EMC DSS 8440 |
Suoritin |
2x Xeon® Gold 6248R, 24 ydintä, 3,0 GHz |
RAM |
24x 64 Gt (2933 MTps) |
Käyttöjärjestelmä |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS-järjestelmän profiili |
Optimoitu suorituskyky |
Looginen suoritin |
Poissa käytöstä |
Virtualisointitekniikka |
Poissa käytöstä |
Kiihdyttimet |
16x NVIDIA® Tesla® T4 -grafiikkasuoritin |
Parabricks |
v3.0.0.05 |
Kaksi Z9100-ON-kytkintä tarjoaa yhteyden laskentasolmun ja Isilon F800 -tallennusklusterin välille. Hallintaan käytetään toista kytkintä, N2248X-ON.
NGS-tiedot
Toissijaisen analyysin keston benchmark-testaustiedot koostuivat kolmesta ihmisen WGS (koko genomin sekvensointi) -tietojoukosta,
ERR091571,
SRR3124837 ja
ERR194161, jotka kattoivat järjestyksessä 10x, 30x ja 50x näytteestä. Nämä tietojoukot ovat saatavilla
ENA (European Nucleotide Archive) -arkistosta.
Suorituskyvyn arviointi
Ohjelmiston parannukset lyhentävät kestoa
NVIDIA lisää edelleen ohjelmiston parannuksia NVIDIA Clara Parabricksiin. Kuvassa 2 näkyy, miten kesto lyhenee kahden Parabricks-version välillä, kun ne suorittavat ituratakanavaa käyttäen testiympäristöä, jossa on Dell PowerEdge C4140 -palvelin ja neljä V100-grafiikkasuoritinta. Siirtyminen versiosta 2.1.0 versioon 3.0.0 lyhensi kestoa 42 %.
Kuva 2 Uusimman Parabricks-ituratamuunnelman version suoritusaika.
DSS 8440 -palvelimen suorituskyvyt kuudellatoista T4-grafiikkasuorittimella
Kun
NVIDIA Clara Parabricks käyttää toissijaiseen analyysiin yhtä T4-grafiikkasuoritinta, analyysi kestää noin 30 % kauemmin kuin yhdellä V100-grafiikkasuorittimella. Kaksi T4-grafiikkasuoritinta tuottaa kuitenkin noin 10 % teraFLOPSia (TFLOPS) enemmän kuin yksi V100-grafiikkasuoritin noin puolet edullisemmin. DSS 8440 -palvelimessa on enintään 16 PCIe-paikkaa, minkä ansiosta voidaan suunnitella T4-grafiikkasuorittimeen perustuva palvelin, joka tuottaa samankaltaisen suoritusajan kuin C4140-järjestelmä, jossa on neljä V100-grafiikkasuoritinta, mutta edullisemmin.
Parabricks-iturata-analyysi tehtiin PowerEdge DSS 8440 -palvelimella, jossa oli 16 T4-grafiikkasuoritinta. Kunkin edellä kuvatun WGS-näytetietojoukon kohdalla kirjattiin suoritusaika käytettäessä 1, 2, 4, 8 ja 16 T4-grafiikkasuoritinta kuhunkin toissijaiseen analyysiin. Tulokset näkyvät kuvissa 3–5. Yleisesti suoritusaika ei skaalaudu lineaarisesti, kun kuhunkin analyysiin käytettävien grafiikkasuorittimien määrä kasvaa. Skaalauskuvio on samankaltainen kuin tilanne, jossa näytekohtaisten tietojen määrä kasvaa 10x:sta 50x:ään.
Vaikka se ei näykään tässä,
aiempi Dell EMC:n tutkimus Parabricksin suoritusaikatuloksista käytettäessä vähintään kahdeksaa V100-grafiikkasuoritinta kussakin analyysissä, skaalaus ei ollut yhtä tehokasta kuin käytettäessä T4-grafiikkasuorittimia. Lisätesteissä havaittiin, että kuudella T4-grafiikkasuorittimella saatiin lähes samat suoritusaikatulokset kuin neljällä V100-grafiikkasuorittimella.
Kuva 3 Suorituskykyvertailu: 10x WGS
Kuva 4 Suorituskykyvertailu: 30x WGS
Kuva 5 Suorituskykyvertailu: 50x WGS
Johtopäätös
DSS 8440, jossa on kuusitoista T4-grafiikkasuoritinta, pystyy käsittelemään kolmekymmentä 50x-ihmisgenomia päivässä. Vastaavaan päiväkohtaiseen tulokseen käytettäessä perinteistä x86-suoritinarkkitehtuuria tarvitaan kymmenen PowerEdge C6420 -laskentasolmua. Koko tätä arkkitehtuuria käsitellään
aiemmassa Dellin julkaisussa.
Kaikkien kuudentoista T4-grafiikkasuorittimen käyttäminen yhden näytteen käsittelyyn ei kuitenkaan kannata, koska 16 grafiikkasuorittimen käyttäminen kuhunkin analyysiin on parhaimmillaankin vain 10 % nopeampaa kuin käytettäessä 8 grafiikkasuoritinta. DSS 8440 -palvelimen rakenne sallii useita toissijaisia analyysejä rinnakkain. Määrittämällä kunkin näytteen käsittelyyn kahdeksan T4-grafiikkasuoritinta päiväkohtainen analyysitulos nousee noin 50 genomiin. Käyttämällä kunkin näytteen analyysiin neljä grafiikkasuoritinta päiväkohtainen analyysitulos nousee noin 70 genomiin. On tärkeää huomata myös, että päiväkohtainen tulos käytettäessä T4-grafiikkasuorittimia maksaa alle puolet siitä, mitä V100-grafiikkasuorittimen käyttö maksaa.
Nopeuden lisäksi yhteensopivuus muiden analyysityökalujen kanssa on keskeisen tärkeää tulosten vertailtavuuden kannalta. Parabricks-iturata-analyysin tulokset ovat lähes identtiset aiempaan testaukseen käytetyn tunnetun BWA-GATK-haplotyypin tunnistinanalyysin kanssa. Lisäksi halusimme verrata Parabricks-muunnelmantunnistustuloksia muihin työkalusarjoihin (esimerkiksi samtools/mpileup). Näillä kahdella keskenään täysin erilaisella työkalulla saadaan noin 90-prosenttisesti samat tulokset tunnistetuista muunnelmista, ja vaihtelu monilla tunnetuilla genomialueilla, jotka sisältävät tärkeitä geenejä, ovat yli 99-prosenttisesti samat.