Falcon Accelerated Genomics Pipeline met één Intel FPGA programmeerbare versnellingskaart kan 50x hele menselijke genoom in minder dan 3 uur verwerken via alternative variant Calling Pipeline.
Overzicht, marktuitdaging (behoefte), Falcon-oplossing beantwoordt de behoefte
Precisie-geneeskunde, genomica en epigenetics gebruiken genoomsequentie om onderzoek uit te voeren, diagnose te verbeteren, farmaceutische producten te ontwikkelen, de kwaliteit van zorg voor zorgverleners te verbeteren en de productie van producten te optimaliseren. Voor biowetenschappen is genoomanalyse nu een belangrijke applicatie, deels vanwege de hoge kostenreductie van dataverzameling door vooruitgang in de volgende generatie sequencing (NGS). Naast meer dataverzameling is er ook een aanzienlijke toename in het aantal genoomapplicaties die worden gebruikt op universiteiten, genomica-onderzoekscentra, farmaceutische bedrijven en organisaties in de gezondheidszorg.
Elke zeven maanden verdubbelt de hoeveelheid genoomdata (1). Daarom is dataverwerking op een efficiënte en kosteneffectieve manier cruciaal geworden. De rekenkracht van alleen processoroplossingen schaalt niet snel genoeg om de genomica-datagroei bij te houden. Dit heeft geleid tot de noodzaak van hardwareversnelling. Versnellers zoals FPGA's worden pivotal in overeenstemming met de rekenvereisten van deze genomica-data-explosie. Vergeleken met andere hardwareversnellingsoplossingen biedt de Falcon Accelerated Genomics Pipeline (ESGP) flexibiliteit, hoge doorvoersnelheid en lagere kosten per voorbeeld.
Wat is FPGA, Intel PAC-aanbod & Advantage
FPGA's zijn siliciumapparaten die dynamisch opnieuw kunnen worden geprogrammeerd met een datapad dat precies overeenkomt met uw workloads, zoals Genomic Sequencing, Data Analytics of Compressie zoals geïllustreerd in afbeelding 1. Deze veelzijdigheid maakt het mogelijk om snellere verwerking, efficiëntere berekeningen en een lagere latentieservice te leveren, waardoor uw totale eigendomskosten worden verlaagd en de rekencapaciteit wordt gemaximaliseerd binnen de stroom-, ruimte- en koelingsbeperkingen van uw datacenters.
Traditioneel vereisen FPGA's diepgaande domeinexpertise om te programmeren. Om de ontwikkelingsstroom te vereenvoudigen en snelle implementatie in het datacenter mogelijk te maken, biedt Intel een versnellingsplatform met PCI Express* (PCIe*) - op Intel FPGA programmeerbare versnellingskaarten (Intel FPGA PAC) en de Intel® Acceleration Stack voor Intel Xeon® CPU met FPGA's. Deze Intel platforms zijn gekwalificeerd, gevalideerd en geïmplementeerd via Dell EMC. Samen met ecosysteempartners zoals Falcon Computing biedt het Intel Acceleration Platform een betrouwbare en kant-en-klare oplossing met transparante hardware onder de motorkap.
Afbeelding 1 Verbeterde nauwkeurigheid en snelheid op de standaard GATK-pipeline
Details falcon-oplossing:
Nomic Analysis Toolkit (GATK) is de gouden standaard voor genomica-dataverwerking die wordt geaccepteerd door de genomica-community (2). De Best Practice Workflow (BPW) staat bekend om zijn traagheid in berekeningen om resultaten te genereren voor grote voorbeelden zoals Whole-Genoom (WGS). Om dit probleem op te lossen, heeft Falcon Computing Solutions een flexibel softwarepakket met tools ontwikkeld dat de BPW volgt en gemakkelijk kan worden geïmplementeerd in meerdere platforms en architecturen. Het is snel door verschillende grote bestellingen in vergelijking met OP CPU gebaseerde GATK-pipelines.
RPMP biedt een end-to-end oplossing voor rendabele analyse van genoomdata met behulp van de GATK-pipeline met hoge prestaties, nauwkeurigheid en reproduceerbaarheid. De oplossing levert tot 15x versnelling met dezelfde nauwkeurigheid als GATK (3). Dit betekent dat een analyse die doorgaans 50 tot 60 uur in minder dan 4 uur (3) duurt kan worden uitgevoerd. TELEMETRP biedt uitzonderlijke versnellings- en nauwkeurigheidsniveaus in combinatie met krachtige, betrouwbare Intel Arria 10 FPGA's en Intel® Xeon® processors.
DPP volgt GATK BPW. Het implementeert versnelling in veel componenten van de pipelines van uitlijning (BWA) naar variant calling (Haplotype Caller) (4). Naast de versnelde BWA bevat het ook een versnelde versie van de aligner Minimap2 die deel uitmaakt van de Alternatieve Genomic Pipeline van Falcon (5). De alternatieve pipeline biedt een nog snellere oplossing. Het kan binnen 3 uur 50x whole-genoom-sequencing voltooien. Beide aligners hebben de functie om gemarkeerde duplicaten en gesorteerde leesbewerkingen te genereren zonder extra tools te hoeven gebruiken.
RPMP behaalt hoge prestaties/doorvoer door intensieve berekeningen in gatk-pipeline te versnellen met behulp van Intel FPGA PAC-platforms. Dit verschilt van scale-out oplossingen die een hoge doorvoersnelheid bereiken door meer CPU-resources toe te voegen. Dergelijke scale-out oplossingen hebben een beperkt vermogen om de kosten of latentie per sample te verlagen.
Een ander voordeel van falcon-oplossing is dat het een open pipeline is als GATK. Gebruikers kunnen afzonderlijke stappen in de pipelines beheren. Tussenliggende data worden opgeslagen en kunnen worden geopend.
Tabel 1 Voordelen van Falcon Accelerated Genomics Pipeline
Voordelen van Falcon Accelerated Genomics Pipeline (ESGP) |
Echt GATK |
Ondersteuning voor meerdere GATK-versies, waaronder 4.0 |
Schaal in de branche |
Voer vijf hele genooms uit of 24 hele genooms in één dag |
Alternatieve variant |
< Doorlooptijd van 3 uur op locatie voor WGS (50x) |
Snelheid |
Voer gatk best practices-pipeline tot >15x sneller uit |
Maak gebruik van bestaande |
Werkalgoritme hoeft niet opnieuw te worden geschreven |
Dell hardwareconfiguratie
Tabel 2 Dell EMC PowerEdge R740xd als testbed
Dell EMC PowerEdge R740xd |
Processor |
2 x Intel(R) Xeon(R) Gold 6148 CPU bij 2,40 GHz |
Geheugen |
384 GB bij 32 x 16 GB RDIMM, 2666 MT/s, Dual Rank |
Storage |
4 x 1,2 TB 10.000 rpm SAS 12 Gbps 512n 2,5 inch hot-pluggable harde schijf in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8T in software RAID 0 |
FPGA |
Intel programmeerbare versnellingskaart met Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Systeemprofiel |
Prestaties |
BIOS-versie |
2.1.3 |
Hyperthreading |
Enabled |
BESTURINGSSYSTEEM |
Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Prestatie-evaluatie
In onze benchmarktests hebben we volledige genoomsequentiegegevens gebruikt op 10x, 30x en 50x diepte van de dekking.
Tabel 3 Geteste gegevens voor hele genoom-sequencing
Resultaten:
Tabel 4 geeft een overzicht van de tijd die nodig is om de GATK 4.0 Best Practices Pipeline uit te voeren in drie testcycli met behulp van RPMP en de Intel FPGA PAC die is gehuisvest in de DELL EMC PowerEdge R740xd server.
Tabel 4 Totale runtimes van Best Practice Pipeline versie 2.1.1
Monster |
Diepte van dekking |
Test 1 |
Runtime (minuten) test 2 |
Test 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tabel 5 geeft een overzicht van de tijd (in minuten) die nodig is om de alternatieve pipeline te voltooien: Falcon Bacline over drie testcycli met BEHULP van FALCONP en de Intel FPGA PAC die is gehuisvest in de DELL EMC PowerEdge R740xd server.
Tabel 5 Totale runtimes van alternatieve variant belpijplijn
Monster |
Diepte van dekking |
Test 1 |
Runtime (minuten) test 2 |
Test 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Samenvatting van Falcon Genomic Solution
De Falcon Accelerated Genomics Pipeline biedt een hoge doorvoersnelheid, lage kosten/proef-/dagvoordelen. Samen met de Intel FPGA Programmeerbare Versnellingskaart en gecertificeerde DELL server biedt NVIDIAP een complete oplossing die eenvoudig kan worden gebruikt voor uw genoom-sequencing-applicaties.
' Bij TCGB bieden we genoom-sequencingservices aan onze klanten in het hele land. De Falcon Accelerated Genomics Pipeline* heeft ons in staat gesteld om onze doorlooptijd van dagen in enkele uren te verkorten met behoud van de nauwkeurigheid van industriestandaard GATK-pipelines."
— Dr Xinmin Li, Director of Technology Center for Genomics &Bioinformatics (TCGB) UCLA
Bronnen
1. Het namaken van het genoom creëert zoveel data dat we niet weten wat we ermee moeten doen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genoom-creëert-so-much-data-we-don-not-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Versnelde genomica. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
De genoomsequentie-bepaling versnellen met Falcon Accelerated Genomics Pipeline (FAGP) op Intel FPGA PAC (in het Engels)
Falcon Accelerated Genomics Pipeline met één Intel FPGA programmeerbare versnellingskaart kan 50x hele menselijke genoom in minder dan 3 uur verwerken via alternative variant Calling Pipeline.