Falcon Accelerated Genomics Pipeline med ett enkelt Intel FPGA-programmerbart akselerasjonskort kan behandle 50 x hele menneskelig genom på mindre enn 3 timer gjennom Alternative Variant Calling Pipeline.
Oversikt, markedsutfordring (behov), Falcon-løsning svarer på behovet
Precision-medisinske, genomikk ogsingenetikk bruker genomikksekvensering til å forske, forbedre diagnostikken, utvikle adresser, øke kvaliteten på beskyttelsen for leverandører av helsetjenester og optimere avlingsproduksjonen. For biovitenskap er genomanalyse nå en nøkkelapplikasjon, delvis på grunn av den store kostnadsreduksjonen av datainnsamling fra fremskritt i neste generasjons sekvensering (NGS). I tillegg til økt datainnsamling har det også vært betydelig vekst i utvalget av genomikkapplikasjoner som brukes på tvers av universiteter, genomiske forskningssentre,driftsselskaper og helseorganisasjoner.
Hver fjerde måned dobles mengden genomdata (1). Databehandling på en effektiv og kostnadseffektiv måte har derfor blitt kritisk. Databehandlingskraften til løsninger kun for prosessorer skaleres ikke raskt nok til å holde tritt med genomikkdatavekst. Dette har ført til behovet for maskinvareakselerasjon. Akseleratorer som FPPA-er blir avgjørende for å samsvare med databehandlingskravene til denne genomiske datainnskyningen. Sammenlignet med andre maskinvareakselererte løsninger gir Falcon Accelerated Genomics Pipeline (FAGP) fleksibilitet, høy gjennomstrømning og lavere kostnader per utvalg.
Hva er FPGA, Intel PAC-tilbud og Fordel
FPPA-er er silisiumenheter som kan reprogrammeres dynamisk med en databane som samsvarer nøyaktig med workloadene dine, for eksempel genomikksekvensering, dataanalyse eller komprimering som illustrert i figur 1. Denne allsidigheten muliggjør raskere behandling, mer strømeffektiv databehandling og lavere ventetid – noe som reduserer de totale eierkostnadene og maksimerer datasentrenes datasentres strøm-, plass- og kjølebegrensninger.
FPPA-er krever vanligvis dyp domeneekspertise for å programmere. Intel tilbyr en akselerasjonsplattform som inkluderer PCI Express* (PCIe*) – basert på Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) og Intel® Acceleration Stack for Intel Xeon® CPU med FPGA-er for å forenkle utviklingsflyten og muliggjøre rask implementering på tvers av datasenteret. Disse Intel-plattformene er kvalifiserte, validerte og implementert gjennom Dell EMC. Sammen med økosystempartnere som Falcon Computing tilbyr Intel Acceleration Platform en pålitelig og klar-til-go-løsning med gjennomsiktig maskinvare under hetten.
Figur 1 Forbedret nøyaktighet og hastighet på standard GATK-pipeline
Detaljer om Falcon-løsning:
Verktøysett for genomanalyse (GATK) er gullstandarden for genomikkdatabehandling som godtas av genomikkmiljøet (2). Den beste praksis-arbeidsflyten (BPW) er velkjent for sin treghet i databehandling for å generere resultater for store eksempler, for eksempel Whole-Genom (WGS). For å løse dette problemet har Falcon Computing Solutions utviklet en fleksibel programvarepakke med verktøy som følger BPW, og som enkelt kan implementeres i flere plattformer og arkitekturer. Det er raskt på grunn av flere ordrer om oppsparing sammenlignet med CPU-baserte GATK-pipeliner.
FAGP gir en ende-til-ende-løsning for kostnadseffektiv analyse av genomiske data ved hjelp av GATK-pipelinen med høy ytelse, nøyaktighet og reproduserbarhet. Løsningen gir opptil 15x hastighet med samme nøyaktighet som GATK (3). Dette betyr at en analyse som vanligvis tar 50 til 60 timer, kan gjennomføres på under 4 timer (3). FAGP gir eksepsjonelle nivåer av akselerasjon og nøyaktighet sammen med pålitelige Intel Arria 10 FPGA-er og Intel® Xeon-prosessorer® med høy ytelse.
FAGP følger GATK BPW. Den implementerer akselerasjon i mange komponenter i pipelinene fra justering (BWA) til variantsamtaler (HaplotypeCaller) (4). I tillegg til den akselererte BWA-en inneholder den også en akselerert versjon av minimap2 for justering som er en del av den alternative genomiske pipelinen fra Falcon (5). Den alternative pipelinen gir en enda raskere løsning. Den kan fullføre 50x sekvensering av hele genom i løpet av tre timer. Begge justeringene har funksjonen for å generere merkede duplikater og sorterte leseoperasjoner uten at du må bruke flere verktøy.
FAGP oppnår høy ytelse/gjennomstrømning ved å akselerere intensiv databehandling i GATK-pipelinen ved hjelp av Intel FPGA PAC-plattformer. Dette er forskjellig fra skaleringsløsninger som oppnår høy gjennomstrømning ved å legge til flere CPU-ressurser. Slike skaleringsløsninger har begrenset mulighet til å redusere kostnader eller ventetid per eksempel.
En annen fordel med Falcon-løsningen er at den er en åpen pipeline som GATK. Brukere kan kontrollere individuelle trinn i pipelinene. Mellomliggende data lagres og åpnes.
Tabell 1 Fordeler med Falcon Accelerated Genomics Pipeline
Fordeler med Falcon Accelerated Genomics Pipeline (FAGP) |
Ekte GATK |
Støtte for flere GATK-versjoner, inkludert 4.0 |
Bransjeskalering |
Kjør fem hele genom eller 24 hele exomes på én dag |
Alternativ variant |
< 3-timers behandlingstid på forhånd for WGS (50X) |
Speed (Hastighet) |
Kjøre GATK beste praksis pipeline opptil >15 ganger raskere |
Dra nytte av eksisterende |
Du trenger ikke å skrive om fungerende algoritmer |
Maskinvarekonfigurasjon fra Dell
Tabell 2 Dell EMC PowerEdge R740xd som test
Dell EMC PowerEdge R740xd |
Prosessor |
2 x Intel(R) Xeon(R) Gold 6148 CPU ved 2,40 GHz |
Minne |
384 GB ved 32 x 16 GB RDIMM, 2666 MT/s, dobbeltnivå |
Lagring |
4 x 1,2 TB 10 000 o/min SAS 12 Gbps 512n 2,5-tommers Hot-plug-harddisk i RAID 0 2 x INTEL SSDPEDMD020T4 DC P3700 1.8T i programvare RAID 0 |
FPGA |
Intel programmerbart akselerasjonskort med Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Systemprofil |
Ytelse |
BIOS-versjon |
3.1.2 |
Hyperthreading |
Enabled (Aktivert) |
OS |
Red Hat Enterprise Linux Server versjon 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Ytelsesevaluering
I vår benchmark-testing brukte vi hele menneskelig genomsekvenseringsdata ved 10x, 30x og 50x dekningsdybde.
Tabell 3 Testet data for hele genomsekvensering
Resultater:
Tabell 4 oppsummerer tiden det tar å fullføre GATK 4.0 Best Practices Pipeline i løpet av tre testsykluser ved hjelp av FAGP og Intel FPGA PAC som ligger i DELL EMC PowerEdge R740xd-serveren.
Tabell 4 Total kjøretid fra Best Practice Pipeline versjon 2.1.1
Eksempel |
Dekningsdybde |
Test 1 |
Kjøretid (minutter) Test 2 |
Test 3 |
ERR091571 |
10 x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 x |
242.97 |
250.65 |
247.18 |
Tabell 5 oppsummerer tiden det tar (i minutter) å fullføre den alternative pipelinen: Falcon Germline over tre testsykluser ved hjelp av FAGP og Intel FPGA PAC ligger i DELL EMC PowerEdge R740xd-serveren.
Tabell 5 Total kjøretid fra Alternative Variant Calling Pipeline
Eksempel |
Dekningsdybde |
Test 1 |
Kjøretid (minutter) Test 2 |
Test 3 |
ERR091571 |
10 x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 x |
171.52 |
171.87 |
171.37 |
Sammendrag av Falcon Genomic Solution
Falcon Accelerated Genomics Pipeline gir høy gjennomstrømning, lave kostnader/utvalg/dagfordeler. I tillegg til Intel FPGA Programmable Acceleration Card og sertifisert DELL-server gir FAGP en komplett løsning som enkelt kan tas i bruk for genomikksekvenseringsapplikasjonene dine.
Hos TCGB tilbyr vi genomsekvenseringstjenester til våre Hersingsklienter. Falcon Accelerated Genomics Pipeline* har gjort det mulig for oss å redusere sin behandling fra dager til få timer, samtidig som vi opprettholder nøyaktigheten av industristandardiserte GATK-pipeliner.»
— Dr. Xinmin Li, direktør for teknologisenter for genomikk og bioinformatikk (TCGB) UCING
Ressurser
1. Sekvensering av genom skaper så mye data at vi ikke vet hva vi skal gjøre med det. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genom-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Akselerert genomikk. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Øk genomikksekvensialisering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC
Falcon Accelerated Genomics Pipeline med ett enkelt Intel FPGA-programmerbart akselerasjonskort kan behandle 50 x hele menneskelig genom på mindre enn 3 timer gjennom Alternative Variant Calling Pipeline.