Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmerbart accelerationskort kan behandle 50x hele menneskelige genomer på mindre end 3 timer via en alternativ Variant Calling-pipeline.
Oversigt, Markedsk udfordring (behov), Falcon-løsning besvarer behovet
Precision-diagnosticering, genomforskning og epigenetik anvender genomsekvens til at udføre forskning, forbedre diagnosticering, udvikle diagnoser, øge kvaliteten af plejen til sundhedsudbydere og optimere produktionen af marker. Til biovidenskab er genomanalyse nu et vigtigt program, til dels på grund af de store omkostningsreduktioner i dataindsamlingen fra fremskridt inden for næste generation af sekvenser (NGS). Ud over den øgede dataindsamling har der også været en betydelig vækst i udvalget af genomprogrammer, der bruges på tværs af universiteter, genomiske forskningscentre, virksomheder og sundhedsorganisationer.
Hver 7. måned fordobles mængden af genomdata (1). Databehandling er således blevet kritisk på en effektiv og omkostningseffektiv måde. Den databehandlingskraft, der findes i processorløsninger, er ikke skalerende hurtigt nok til at holde trit med den genomiske datavækst. Dette har ført til behovet for hardwareacceleration. Acceleratorer som f.eks. FPPA'er bliver pivotal i overensstemmelse med beregningskravene i denne genomiske dataeksplosion. Sammenlignet med andre hardware-accelererede løsninger tilbyder Falcon Accelerated Genomics Pipeline (FAGP) fleksibilitet, høj overførselshastighed og en lavere omkostning pr. prøve.
Hvad er FPGA, Intel PAC-tilbud &Advantage
FSA'er er silicone-enheder, der kan omfordeles dynamisk med en datasti, der nøjagtigt svarer til dine workloads, f.eks. genomisk sekventering, dataanalyse eller komprimering som vist i Figur 1. Denne alsidighed gør det muligt at klargøre hurtigere behandling, mere strømeffektiv databehandling og service med lavere ventetid – det sænker dine samlede ejerskabsomkostninger og maksimerer computerkapaciteten inden for dine datacentres strøm-, plads- og kølebegrænsninger.
Normalt kræver FPTA'er dyb domæneekspertise for at programmere. For at forenkle udviklingsflowet og muliggøre hurtig implementering på tværs af datacenteret tilbyder Intel en accelerationsplatform, der omfatter PCI Express* (PCIe*) - baserede Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) og Intel® Acceleration Stack til Intel Xeon® CPU med FPGA'er. Disse Intel-platforme er kvalificerede, valideret og implementeret via Dell EMC. Sammen med økosystempartnere som Falcon Computing tilbyder Intel Acceleration Platform en pålidelig og klar til brug-løsning med gennemsigtig hardware under skærmen.
Figur 1: Forbedret nøjagtighed og hastighed på standard GATK-pipeline
Oplysninger om Falcon-løsning:
Genome Analysis Toolkit (GATK) er guldstandarden for genomdatabehandling, som er accepteret af genomforskningsfællesskabet (2). BpW (Best Practice Workflow) er kendt for sin langsom databehandling for at generere resultater for store eksempler som f.eks. Whole-Genome (WGS). For at løse dette problem har Falcon Computing Solutions udviklet en fleksibel softwarepakke med værktøjer, der følger BPW og nemt kan implementeres i flere platforme og arkitekturer. Det sker hurtigt efter flere ordrer i sammenligning med CPU-baserede GATK-pipelines.
FAGP er en end-to-end-løsning til omkostningseffektiv analyse af genomdata ved hjælp af GATK-pipelinen med høj ydeevne, nøjagtighed og reproducerbarhed. Løsningen leverer op til 15x speedup med samme nøjagtighed som GATK (3). Det betyder, at en analyse, der typisk tager 50 til 60 timer, kan udføres på under 4 timer (3). FAGP leverer exceptionelle niveauer af acceleration og nøjagtighed i forbindelse med højtydende, pålidelige Intel Arria 10 FPBA'er og Intel® Xeon-processorer®.
FAGP følger GATK BPW. Den implementerer acceleration i mange komponenter i pipelines fra justering (BWA) til variantopkald (HaplotypeCaller) (4). Ud over den accelererede BWA omfatter den også en accelereret version af Aligner Minimap2, der er en del af den alternative genomiske pipeline fra Falcon (5). Den alternative pipeline giver en endnu hurtigere løsning. Den kan gennemføre 50x hel genomsekvensering inden for 3 timer. Begge alignere har funktionen til at generere markerede dubletter og sorterede læsninger uden behov for at bruge yderligere værktøjer.
FAGP opnår høj ydeevne/dataoverførselshastighed ved at accelerere intensiv databehandling i GATK-pipeline ved hjælp af Intel FPGA PAC-platforme. Dette er forskelligt fra scale-out-løsninger, der opnår høj dataoverførselshastighed ved at tilføje flere CPU-ressourcer. Sådanne udskaleringsløsninger har begrænset mulighed for at reducere omkostningerne eller ventetid pr. prøve.
En anden fordel ved Falcon-løsningen er, at den er en åben pipeline som GATK. Brugere kan styre individuelle trin i pipelines. Mellemliggende data gemmes og kan tilgås.
Tabel 1: Fordele ved Falcon Accelerated Genomics Pipeline
Fordele ved Falcon Accelerated Genomics Pipeline (FAGP) |
True GATK |
Understøttelse af flere GATK-versioner, herunder 4.0 |
Branchedæksel |
Kør fem hele genomer eller 24 hele eksomer på en dag |
Alternativ variant |
< 3-timers turnaround-tid on-prem for WGS (50X) |
Hastighed |
Udføre BEDSTE PRAKSIS FOR GATK op til >15 gange hurtigere |
Udnyt eksisterende |
Det er ikke nødvendigt at omskrive fungerende algoritmer |
Konfiguration af Dell-hardware
Tabel 2: Dell EMC PowerEdge R740xd som teststand
Dell EMC PowerEdge R740xd |
Processor |
2x Intel(R) Xeon(R) Gold 6148 CPU ved 2,40 GHz |
Hukommelse |
384 GB ved 32 x 16 GB RDIMM, 2.666 MT/s, Dual Rank |
Storage |
4 x 1,2 TB 10K RPM SAS 12 Gbps 512n 2,5"-harddisk med hot-plug i RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8 T i software RAID 0 |
FPGA |
Intel programmerbart accelerationskort med Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Systemprofil |
Performance (Ydeevne) |
BIOS-version |
2.1.3 |
Hyperthreading |
Aktiveret |
OPERATIVSYSTEM |
Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Ydeevneevaluering
I vores benchmarktest brugte vi data fra hele den menneskelige genomsekvens på 10x, 30x og 50x dybde.
Tabel 3: Testede data for hel-genomsekventering
Resultater:
Tabel 4 indeholder en oversigt over den tid, det tager at fuldføre GATK 4.0 Best Practices Pipeline over tre testcyklusser med FAGP og Intel FPGA PAC i DELL EMC PowerEdge R740xd-serveren.
Tabel 4 Samlede driftstider fra Best Practice Pipeline-version 2.1.1
Prøve |
Dybde af dækning |
Test 1 |
Driftstid (minutter) Test 2 |
Test 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tabel 5 opsummerer den tid (i minutter), det tager at fuldføre den alternative pipeline: Falcon Diagnosticline over tre testcyklusser ved hjælp af FAGP og Intel FPGA PAC i DELL EMC PowerEdge R740xd-serveren.
Tabel 5: Samlet driftstid fra alternativ variantopkaldspipeline
Prøve |
Dybde af dækning |
Test 1 |
Driftstid (minutter) Test 2 |
Test 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Oversigt over Falcon Genomic-løsning
Falcon Accelerated Genomics Pipeline tilbyder høj overførselshastighed, lav pris/prøve/dag-fordel. Sammen med Intel FPGA-programmerbart accelerationskort og certificeret DELL-server giver FAGP en komplet løsning, der nemt kan anvendes til dine genomiske sekventeringsprogrammer.
" Hos TCGB leverer vi tjenester i genomsekvens til vores omfattende klienter. Falcon Accelerated Genomics Pipeline* har givet os mulighed for at skifte fra dage til få timer og samtidig opretholde nøjagtigheden af branchestandardens GATK-pipelines."
— Dr Xinmin Li, director of Technology Center for Genomics &Bioinformatics (TCGB) UCLA
Ressourcer
1. Genomsekvenseringen skaber så mange data, at vi ikke ved, hvad vi skal gøre med det. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Accelererede genomforskninger. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Boost Genomic Sequencing med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC
Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmerbart accelerationskort kan behandle 50x hele menneskelige genomer på mindre end 3 timer via en alternativ Variant Calling-pipeline.