Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Boost Genomic Sequencing med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Summary: Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmerbart accelerationskort kan behandle 50x hele menneskelige genomer på mindre end 3 timer via en alternativ Variant Calling-pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmerbart accelerationskort kan behandle 50x hele menneskelige genomer på mindre end 3 timer via en alternativ Variant Calling-pipeline. 

 



Oversigt, Markedsk udfordring (behov), Falcon-løsning besvarer behovet

Precision-diagnosticering, genomforskning og epigenetik anvender genomsekvens til at udføre forskning, forbedre diagnosticering, udvikle diagnoser, øge kvaliteten af plejen til sundhedsudbydere og optimere produktionen af marker. Til biovidenskab er genomanalyse nu et vigtigt program, til dels på grund af de store omkostningsreduktioner i dataindsamlingen fra fremskridt inden for næste generation af sekvenser (NGS). Ud over den øgede dataindsamling har der også været en betydelig vækst i udvalget af genomprogrammer, der bruges på tværs af universiteter, genomiske forskningscentre, virksomheder og sundhedsorganisationer. 
Hver 7. måned fordobles mængden af genomdata (1). Databehandling er således blevet kritisk på en effektiv og omkostningseffektiv måde. Den databehandlingskraft, der findes i processorløsninger, er ikke skalerende hurtigt nok til at holde trit med den genomiske datavækst. Dette har ført til behovet for hardwareacceleration. Acceleratorer som f.eks. FPPA'er bliver pivotal i overensstemmelse med beregningskravene i denne genomiske dataeksplosion. Sammenlignet med andre hardware-accelererede løsninger tilbyder Falcon Accelerated Genomics Pipeline (FAGP) fleksibilitet, høj overførselshastighed og en lavere omkostning pr. prøve.
 



Hvad er FPGA, Intel PAC-tilbud &Advantage

FSA'er er silicone-enheder, der kan omfordeles dynamisk med en datasti, der nøjagtigt svarer til dine workloads, f.eks. genomisk sekventering, dataanalyse eller komprimering som vist i Figur 1. Denne alsidighed gør det muligt at klargøre hurtigere behandling, mere strømeffektiv databehandling og service med lavere ventetid – det sænker dine samlede ejerskabsomkostninger og maksimerer computerkapaciteten inden for dine datacentres strøm-, plads- og kølebegrænsninger. 
Normalt kræver FPTA'er dyb domæneekspertise for at programmere. For at forenkle udviklingsflowet og muliggøre hurtig implementering på tværs af datacenteret tilbyder Intel en accelerationsplatform, der omfatter PCI Express* (PCIe*) - baserede Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) og Intel® Acceleration Stack til Intel Xeon® CPU med FPGA'er. Disse Intel-platforme er kvalificerede, valideret og implementeret via Dell EMC. Sammen med økosystempartnere som Falcon Computing tilbyder Intel Acceleration Platform en pålidelig og klar til brug-løsning med gennemsigtig hardware under skærmen.



SLN319291_en_US__1image(12669)
Figur 1: Forbedret nøjagtighed og hastighed på standard GATK-pipeline
 



Oplysninger om Falcon-løsning:

Genome Analysis Toolkit (GATK) er guldstandarden for genomdatabehandling, som er accepteret af genomforskningsfællesskabet (2). BpW (Best Practice Workflow) er kendt for sin langsom databehandling for at generere resultater for store eksempler som f.eks. Whole-Genome (WGS). For at løse dette problem har Falcon Computing Solutions udviklet en fleksibel softwarepakke med værktøjer, der følger BPW og nemt kan implementeres i flere platforme og arkitekturer.  Det sker hurtigt efter flere ordrer i sammenligning med CPU-baserede GATK-pipelines.
FAGP er en end-to-end-løsning til omkostningseffektiv analyse af genomdata ved hjælp af GATK-pipelinen med høj ydeevne, nøjagtighed og reproducerbarhed. Løsningen leverer op til 15x speedup med samme nøjagtighed som GATK (3). Det betyder, at en analyse, der typisk tager 50 til 60 timer, kan udføres på under 4 timer (3). FAGP leverer exceptionelle niveauer af acceleration og nøjagtighed i forbindelse med højtydende, pålidelige Intel Arria 10 FPBA'er og Intel® Xeon-processorer®. 
FAGP følger GATK BPW. Den implementerer acceleration i mange komponenter i pipelines fra justering (BWA) til variantopkald (HaplotypeCaller) (4). Ud over den accelererede BWA omfatter den også en accelereret version af Aligner Minimap2, der er en del af den alternative genomiske pipeline fra Falcon (5).  Den alternative pipeline giver en endnu hurtigere løsning. Den kan gennemføre 50x hel genomsekvensering inden for 3 timer. Begge alignere har funktionen til at generere markerede dubletter og sorterede læsninger uden behov for at bruge yderligere værktøjer. 
FAGP opnår høj ydeevne/dataoverførselshastighed ved at accelerere intensiv databehandling i GATK-pipeline ved hjælp af Intel FPGA PAC-platforme. Dette er forskelligt fra scale-out-løsninger, der opnår høj dataoverførselshastighed ved at tilføje flere CPU-ressourcer. Sådanne udskaleringsløsninger har begrænset mulighed for at reducere omkostningerne eller ventetid pr. prøve.
En anden fordel ved Falcon-løsningen er, at den er en åben pipeline som GATK. Brugere kan styre individuelle trin i pipelines. Mellemliggende data gemmes og kan tilgås.


Tabel 1: Fordele ved Falcon Accelerated Genomics Pipeline

 
Fordele ved Falcon Accelerated Genomics Pipeline (FAGP)
True GATK Understøttelse af flere GATK-versioner, herunder 4.0
Branchedæksel Kør fem hele genomer eller 24 hele eksomer på en dag
Alternativ variant < 3-timers turnaround-tid on-prem for WGS (50X)
Hastighed Udføre BEDSTE PRAKSIS FOR GATK op til >15 gange hurtigere
Udnyt eksisterende Det er ikke nødvendigt at omskrive fungerende algoritmer
 



Konfiguration af Dell-hardware

Tabel 2: Dell EMC PowerEdge R740xd som teststand

Dell EMC PowerEdge R740xd
Processor 2x Intel(R) Xeon(R) Gold 6148 CPU ved 2,40 GHz
Hukommelse 384 GB ved 32 x 16 GB RDIMM, 2.666 MT/s, Dual Rank
Storage 4 x 1,2 TB 10K RPM SAS 12 Gbps 512n 2,5"-harddisk med hot-plug i RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8 T i software RAID 0
FPGA Intel programmerbart accelerationskort med Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Performance (Ydeevne)
BIOS-version 2.1.3
Hyperthreading Aktiveret
OPERATIVSYSTEM Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Ydeevneevaluering

I vores benchmarktest brugte vi data fra hele den menneskelige genomsekvens på 10x, 30x og 50x dybde.


Tabel 3: Testede data for hel-genomsekventering

 
Kør, Når du er i Dybde af dækning Datalink
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Resultater:

Tabel 4 indeholder en oversigt over den tid, det tager at fuldføre GATK 4.0 Best Practices Pipeline over tre testcyklusser med FAGP og Intel FPGA PAC i DELL EMC PowerEdge R740xd-serveren.


Tabel 4 Samlede driftstider fra Best Practice Pipeline-version 2.1.1
Prøve Dybde af dækning Test 1 Driftstid (minutter)
Test 2
Test 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18

Tabel 5 opsummerer den tid (i minutter), det tager at fuldføre den alternative pipeline: Falcon Diagnosticline over tre testcyklusser ved hjælp af FAGP og Intel FPGA PAC i DELL EMC PowerEdge R740xd-serveren.


Tabel 5: Samlet driftstid fra alternativ variantopkaldspipeline
Prøve Dybde af dækning Test 1 Driftstid (minutter)
Test 2
Test 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37
 



Oversigt over Falcon Genomic-løsning

Falcon Accelerated Genomics Pipeline tilbyder høj overførselshastighed, lav pris/prøve/dag-fordel. Sammen med Intel FPGA-programmerbart accelerationskort og certificeret DELL-server giver FAGP en komplet løsning, der nemt kan anvendes til dine genomiske sekventeringsprogrammer.
" Hos TCGB leverer vi tjenester i genomsekvens til vores omfattende klienter. Falcon Accelerated Genomics Pipeline* har givet os mulighed for at skifte fra dage til få timer og samtidig opretholde nøjagtigheden af branchestandardens GATK-pipelines."
— Dr Xinmin Li, director of Technology Center for Genomics &Bioinformatics (TCGB) UCLA



Ressourcer 

1. Genomsekvenseringen skaber så mange data, at vi ikke ved, hvad vi skal gøre med det. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Accelererede genomforskninger. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


Cause

Boost Genomic Sequencing med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Resolution

Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmerbart accelerationskort kan behandle 50x hele menneskelige genomer på mindre end 3 timer via en alternativ Variant Calling-pipeline.

Affected Products

Dell EMC Ready Solution Resources, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 03 Oct 2023
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.