Falcon Accelerated Genomics Pipeline med ett enda intel FPGA-programmerbart accelerationskort kan bearbeta 50x hela mänskliga genom på mindre än 3 timmar genom en alternativ variant som ringer pipeline.
Översikt, marknadsutmaning (behov), Falcon-lösning svarar på behovet
Precisionsmedicin, -genomik och epgenetik använder genomsekvensering för att genomföra forskning, förbättra diagnosen, utveckla förbättringar, öka kvaliteten på vården för hälso- och sjukvårdsleverantörer och optimera produktionen av produktion. För biovetenskap är genomanalys nu en viktig applikation, delvis på grund av den stora kostnadsreduktionen av datainsamling från framsteg i nästa generations sekvensering (NGS). Utöver ökad datainsamling har det också skett en betydande tillväxt i det utbud av genomiska program som används vid universitet, genomiska forskningscenter, företag och hälso- och sjukvårdsorganisationer.
Var sjunde månad fördubblas mängden genomdata (1). Därför har databearbetning på ett effektivt och kostnadseffektivt sätt blivit avgörande. Beräkningskraften hos lösningar som endast är för processorer skalanpassas inte tillräckligt snabbt för att hålla jämna problem med genomisk datatillväxt. Det har lett till behovet av maskinvaruacceleration. Acceleratorer som FPGA:er blir avgörande för att matcha beräkningskraven från denna genomiska dataexplosion. Jämfört med andra lösningar med maskinvaruaccelererad teknik erbjuder Falcon Accelerated Genomics Pipeline (ANMÄRKNINGP) flexibilitet, hög genomströmning och en lägre kostnad per exempel.
Vad är FPGA, Intel PAC-erbjudande &fördel
FPGA:er är kiselenheter som dynamiskt kan programmeras om med en datasökväg som exakt matchar dina arbetsbelastningar, till exempel genomisk sekvensering, dataanalys eller komprimering som visas i bild 1. Den här mångsidigheten möjliggör provisionering av snabbare bearbetning, mer energieffektiv beräkning och tjänst med lägre latens. Det sänker din totala ägandekostnad och maximerar beräkningskapaciteten i datacentrets ström-, utrymmes- och kylningsbegränsningar.
Traditionellt sett kräver FPGA omfattande domänexpertis för att programmera. Intel erbjuder en accelerationsplattform med PCI Express* (PCIe*) som är baserad på Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) och Intel® Acceleration Stack för Intel Xeon-processor® med FPGA-processorer, vilket förenklar utvecklingsflödet och möjliggör snabb driftsättning i datacentret. Dessa Intel-plattformar är kvalificerade, validerade och driftsatta via Dell EMC. Intel Acceleration Platform erbjuder tillsammans med ekosystempartner som Falcon Computing en tillförlitlig och färdig lösning med transparent maskinvara under skärmhöljet.
Bild 1: Förbättrad noggrannhet och hastighet i standard-GATK-pipeline
Detaljer om Falcon-lösningen:
Genome Analysis Toolkit (GATK) är guldstandarden för genomisk databearbetning som accepteras av genomikgruppen (2). Bästa praxis-arbetsflödet (BPW) är välkänt för sin långsamma beräkning för att generera resultat för stora exempel som Whole-Genome (WGS). För att lösa det här problemet har Falcon Computing Solutions utvecklat ett flexibelt programvarupaket med verktyg som följer BPW och som enkelt kan implementeras på flera plattformar och arkitekturer. Det är snabbt med flera storleksbeställningar jämfört med CPU-baserade GATK-ledningar.
MED GATK-pipelinen får du en heltäckande lösning för att kostnadseffektivt analysera genomiska data med hjälp av GATK-pipelinen med hög prestanda, precision och reproducerbarhet. Lösningen ger upp till 15 gånger snabbare med samma precision som GATK (3). Det innebär att en analys som vanligtvis tar 50 till 60 timmar kan genomföras på under 4 timmar (3). BATP ger exceptionella nivåer av acceleration och noggrannhet i samband med högpresterande, pålitliga Intel Arria 10 FPGA:er och Intel® Xeon-processorer®.
LAPPP följer GATK BPW. Det implementerar acceleration i många komponenter i pipelines från inriktning (BWA) till variantanrop (HaplotypeCaller) (4). Utöver den accelererade BWA innehåller den även en accelererad version av justerings-Minimap2 som är en del av den alternativa genomiska pipelinen från Falcon (5). Den alternativa pipelinen är en ännu snabbare lösning. Den kan slutföra 50x hela genomsekvensen inom 3 timmar. Båda inriktningarna har funktionen för att generera markerade dubbletter och sorterade läsningar utan att behöva använda ytterligare verktyg.
BLINKAP får höga prestanda/genomströmning genom att accelerera intensiv beräkning i GATK-pipelinen med Intel FPGA PAC-plattformar. Det här skiljer sig från skalbara lösningar som ger hög genomströmning genom att lägga till fler processorresurser. Sådana utskalade lösningar har begränsad förmåga att minska kostnader eller latens per prov.
En annan fördel med Falcons lösning är att det är en öppen pipeline som GATK. Användare kan styra enskilda steg i pipelines. Mellanliggande data sparas och kan nås.
Tabell 1: Fördelar med Falcon Accelerated Genomics Pipeline
Fördelar med Falcon Accelerated Genomics Pipeline (LAPPP) |
Äkta GATK |
Stöd för flera GATK-versioner, inklusive 4.0 |
Branschskala |
Kör fem hela genom eller 24 hela exomes på en dag |
Alternativ variant |
< 3 timmars handläggningstid på plats för WGS (50X) |
Hastighet |
Kör GATK-pipeline med bästa praxis upp till >15 gånger snabbare |
Utnyttja befintliga |
Du behöver inte skriva om arbetsalgoritmer |
Dells maskinvarukonfiguration
Tabell 2: Dell EMC PowerEdge R740xd som testbädd
Dell EMC PowerEdge R740xd |
Processor |
2 × Intel(R) Xeon(R) Gold 6148-processor vid 2,40 GHz |
Minne |
384 GB vid 32 x 16 GB RDIMM, 2 666 MT/s, Dual Rank |
Lagring |
4x 1,2 TB 10 K RPM SAS 12 Gbit/s 512n 2,5-tums hårddisk som kan kopplas in under drift i RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8T i programvaru-RAID 0 |
FPGA |
Intel Programmerbart accelerationskort med Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Systemprofil |
Prestanda |
BIOS-version |
2.1.3 |
Hyperthreading |
Aktiverad |
OS |
Red Hat Enterprise Linux Server version 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Prestandautvärdering
I våra prestandatester använde vi hela mänskliga genomsekvensdata vid 10x, 30x och 50x täckningsdjup.
Tabell 3 Testade hela genomsekvensdata
Resultat:
I tabell 4 sammanfattas den tid det tar att slutföra GATK 4.0-pipelinen med bästa praxis under tre testcykler med HJÄLP av RAIDP och Intel FPGA PAC som finns i DELL EMC PowerEdge R740xd-servern.
Tabell 4 Total körtid från bästa praxis för pipelineversion 2.1.1
Prov |
Täckningsdjup |
Test 1 |
Körtid (minuter) Test 2 |
Test 3 |
ERR091571 |
10 gånger |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 gånger |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 gånger |
242.97 |
250.65 |
247.18 |
I tabell 5 sammanfattas den tid (i minuter) som tagits för att slutföra den alternativa pipelinen: Falcon Germline i över tre testcykler med HJÄLP AV SIGP och Intel FPGA PAC finns i DELL EMC PowerEdge R740xd-servern.
Tabell 5 Total körtid från alternativ variant som anropar pipeline
Prov |
Täckningsdjup |
Test 1 |
Körtid (minuter) Test 2 |
Test 3 |
ERR091571 |
10 gånger |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 gånger |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 gånger |
171.52 |
171.87 |
171.37 |
Sammanfattning av Falcon Genomic-lösning
Falcon Accelerated Genomics Pipeline ger hög genomströmning, låg kostnad/exempel/dag-fördel. Tillsammans med Intel FPGA Programmable Acceleration Card och certifierad DELL-server ger SIGP en komplett lösning som enkelt kan användas för dina genomsekvensprogram.
" På TCGB tillhandahåller vi genomsekvenstjänster till våra kunder. Falcon Accelerated Genomics Pipeline* har gjort det möjligt för oss att minska vår handläggningstid från dagar till några timmar samtidigt som vi upprätthåller noggrannheten hos GATK-pipelines av branschstandard."
– Dr Xinmin Li, chef för Technology Center for Genomics &Bioinformatics (TCGB) GLO
Resurser
1. Genom att sekvensera genomet skapas så mycket data att vi inte vet vad vi ska göra med dem. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don'-know-what-to-do-with-it.
2. GATK. [På webben]
https://software.broadinstitute.org/gatk/3. Accelererad genomik. [På webben]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [På webben]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [På webben]
https://github.com/lh3/minimap2
Förstärkning av genomsekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC
Falcon Accelerated Genomics Pipeline med ett enda intel FPGA-programmerbart accelerationskort kan bearbeta 50x hela mänskliga genom på mindre än 3 timmar genom en alternativ variant som ringer pipeline.