단일 인텔 FPGA 프로그래밍 가능 가속 카드를 사용하는 Falcon Accelerated Genomics 파이프라인은 대체 변형 호출 파이프라인을 통해 3시간 이내에 50배의 전체 인간 게놈을 처리할 수 있습니다.
개요, 시장 당면 과제(필요), Falcon 솔루션의 요구 사항 해결
정밀 의학, 유전체학 및 유전체학은 유전체 염기 서열 분석을 사용하여 연구를 수행하고, 진단을 개선하고, 제약을 개발하고, 의료 서비스 공급업체의 치료 품질을 높이고, 농작물 생산을 최적화하고 있습니다. 생명 과학의 경우 차세대 염기서열 분석(NGS)의 발전으로 인한 데이터 수집 비용이 크게 감소하기 때문에 게놈 분석은 이제 핵심 애플리케이션이 되었습니다. 데이터 수집이 증가하는 것 외에도 대학, 게놈 연구 센터, 제약 회사 및 의료 조직에서 사용되는 유전체 애플리케이션 범위도 크게 증가했습니다.
7개월마다 게놈 데이터의 양이 두 배로 증가합니다(1). 따라서 효율적이고 경제적인 방식으로 데이터 처리가 중요해졌습니다. 프로세서 전용 솔루션의 컴퓨팅 성능은 유전체 데이터 증가를 따라잡을 만큼 빠르게 확장되지 않고 있습니다. 이로 인해 하드웨어 가속화가 필요하게 되었습니다. FPGA와 같은 가속기는 이 유전체 데이터 폭발의 컴퓨팅 요구 사항에 부합하는 데 핵심적인 역할을 하게 되고 있습니다. 다른 하드웨어 가속 솔루션에 비해 FAGP(Falcon Accelerated Genomics Pipeline)는 샘플당 유연성, 높은 처리량 및 낮은 비용을 제공합니다.
FPGA, 인텔 PAC 오퍼링 및 이점
FPGA는 그림 1에 나와 있는 것처럼 유전체 염기 서열 분석, 데이터 분석 또는 압축과 같은 워크로드와 정확히 일치하는 데이터 경로로 동적으로 재프로그래밍할 수 있는 실리콘 디바이스입니다. 이러한 다기능성을 통해 더 빠른 프로세싱, 전력 효율적인 컴퓨팅 및 낮은 레이턴시 서비스를 프로비저닝하여 총 소유 비용을 절감하고 데이터 센터의 전력, 공간 및 냉각 제약 내에서 컴퓨팅 용량을 극대화할 수 있습니다.
전통적으로 FPGA는 프로그램에 심층적인 도메인 전문 지식이 필요합니다. 인텔은 개발 흐름을 간소화하고 데이터 센터 전반에 걸쳐 신속한 배포를 가능하게 하기 위해 PCI Express*(PCIe*) 기반 인텔 FPGA 프로그래밍 가능 가속 카드(인텔 FPGA PAC)와 FPGA를 사용하는 인텔 제온® CPU용 인텔® 가속 스택을 포함하는 가속 플랫폼을 제공합니다. 이러한 인텔 플랫폼은 Dell EMC를 통해 검증 및 구축됩니다. 인텔 Acceleration Platform은 Falcon Computing과 같은 협력 체계 파트너와 함께 투명한 하드웨어를 사용하면서 신뢰할 수 있고 즉시 사용할 수 있는 솔루션을 제공합니다.
그림 1 표준 GATK 파이프라인의 정확도 및 속도 향상
Falcon 솔루션 세부 정보:
GATK(Genome Analysis Toolkit)는 유전체학 커뮤니티(2)에서 허용하는 게놈 데이터 처리의 표준입니다. BPW(Best Practice Workflow)는 컴퓨팅 속도가 느려서 WGS(Whole-Genome)와 같은 대규모 샘플에 대한 결과를 생성하는 것으로 잘 알려져 있습니다. 이 문제를 해결하기 위해 Falcon Computing Solutions는 BPW를 따르고 여러 플랫폼 및 아키텍처에서 쉽게 구현할 수 있는 유연한 소프트웨어 툴 패키지를 개발했습니다. CPU 기반 GATK 파이프라인과 비교할 때 몇 배 정도 빠른 속도입니다.
FAGP는 고성능, 정확성 및 재현성으로 GATK 파이프라인을 사용하여 게놈 데이터를 경제적으로 분석할 수 있는 포괄적인 솔루션을 제공합니다. 이 솔루션은 GATK(3)와 동일한 정확도로 최대 15배 빠른 속도를 제공합니다. 즉, 일반적으로 50~60시간이 소요되는 분석은 4시간(3시간) 이내에 수행할 수 있습니다. FAGP는 고성능의 신뢰할 수 있는 인텔 Arria 10 FPGA 및 인텔® 제온® 프로세서와 함께 탁월한 수준의 속도와 정확도를 제공합니다.
FAGP는 GATK BPW를 따릅니다. BWA(Alignment)에서 변형 호출(HaplotypeCaller)(4)에 이르는 파이프라인의 여러 구성 요소에 가속을 구현합니다. 가속 BWA 외에도 Falcon(5)의 대체 게놈 파이프라인에 속하는 정렬기 Minimap2의 가속 버전도 포함되어 있습니다. 대체 파이프라인은 더 빠른 솔루션을 제공합니다. 3시간 이내에 50배 전체 게놈 시퀀싱을 완료할 수 있습니다. 두 정렬기 모두 추가 툴을 사용할 필요 없이 표시된 중복 및 정렬된 읽기를 생성하는 기능이 있습니다.
FAGP는 인텔 FPGA PAC 플랫폼을 사용하여 GATK 파이프라인에서 집약적인 컴퓨팅을 가속화하여 높은 성능/처리량을 달성합니다. 이는 CPU 리소스를 더 추가하여 높은 처리량을 달성하는 스케일 아웃 솔루션과는 다릅니다. 이러한 스케일 아웃 솔루션은 비용 또는 샘플별 레이턴시를 줄이는 기능이 제한적입니다.
Falcon 솔루션의 또 다른 장점은 개방형 파이프라인인 GATK라는 점입니다. 사용자는 파이프라인의 개별 단계를 제어할 수 있습니다. 중간 데이터는 저장되며 액세스할 수 있습니다.
표 1 Falcon Accelerated Genomics 파이프라인의 이점
FAGP(Falcon Accelerated Genomics Pipeline) 이점 |
진정한 GATK |
4.0을 포함한 여러 GATK 버전 지원 |
업계 규모 |
하루에 5개의 전체 게놈 또는 24개의 전체 엑옴 실행 |
대체 변형 |
< WGS의 온프레미스에서 3시간 소요 시간(50배) |
속도 |
GATK Best Practice 파이프라인을 >최대 15배 더 빠르게 실행 |
기존 활용 |
작업 알고리듬을 다시 작성할 필요가 없음 |
Dell 하드웨어 구성
표 2 테스트용 Dell EMC PowerEdge R740xd
Dell EMC PowerEdge R740xd |
프로세서 |
2개의 인텔(R) 제온(R) 골드 6148 CPU @ 2.40GHz |
메모리 |
384GB @ 32x 16GB RDIMM, 2666MT/s, 듀얼 랭크 |
스토리지 |
4개의 1.2TB 10K RPM SAS 12Gbps 512n 2.5" 핫 플러그 하드 드라이브(RAID 0) 2개의 인텔 SSDPEDMD020T4 DC P3700 1.8T(소프트웨어 RAID 0) |
Fpga |
인텔 Arria® 10 GX FPGA를 탑재한 인텔 프로그래밍 가능한 가속 카드(인텔 가속 스택 1.1) |
시스템 프로필 |
성능 |
BIOS 버전 |
2.1.3 |
하이퍼스레딩 |
Enabled |
OS |
Red Hat Enterprise Linux Server 릴리스 7.4(Maipo)(3.10.0-693.el7.x86_64) |
성능 평가
벤치마크 테스트에서는 전체 인간 게놈 시퀀싱 데이터를 10배, 30배, 50배 깊이로 사용했다.
표 3 테스트 완료 전체 게놈 시퀀싱 데이터
결과:
표 4에는 DELL EMC PowerEdge R740xd 서버에 저장된 FAGP 및 인텔 FPGA PAC를 사용하여 3번의 테스트 주기 동안 GATK 4.0 모범 사례 파이프라인을 완료하는 데 걸리는 시간이 요약되어 있습니다.
표 4 모범 사례 파이프라인 버전 2.1.1의 총 런타임
샘플 |
범위의 깊이 |
테스트 1 |
런타임(분) 테스트 2 |
테스트 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
표 5에는 대체 파이프라인을 완료하는 데 소요되는 시간(분)이 요약되어 있습니다. DELL EMC PowerEdge R740xd 서버에 저장된 FAGP 및 인텔 FPGA PAC를 사용하여 3번의 테스트 주기 동안 Falcon Germline을 사용합니다.
표 5 대체 변형 호출 파이프라인의 총 런타임
샘플 |
범위의 깊이 |
테스트 1 |
런타임(분) 테스트 2 |
테스트 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Falcon Genomic 솔루션 요약
Falcon Accelerated Genomics 파이프라인은 높은 처리량, 낮은 비용/샘플/일일 이점을 제공합니다. FAGP는 인텔 FPGA 프로그래밍 가능 가속 카드 및 인증된 DELL 서버와 함께 유전체 염기 서열 분석 애플리케이션에 쉽게 채택할 수 있는 완벽한 솔루션을 제공합니다."
TCGB에서는 개국 클라이언트에게 게놈 시퀀싱 서비스를 제공합니다. Falcon Accelerated Genomics Pipeline*을 통해 업계 표준 GATK 파이프라인의 정확성을 유지하면서 소요 시간을 며칠에서 몇 시간으로 단축할 수 있었습니다."
— Xinmin Li 박사, TCGB(Genomics & Bioinformatics) 기술 센터 책임자
자료
1. 게놈을 시퀀싱하면 어떻게 해야 할지 모르는 데이터가 너무 많이 생성됩니다. [온라인] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-to-do-with-it.
2. GATK. [온라인]
https://software.broadinstitute.org/gatk/3. 가속화된 유전체학. [온라인]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. Bwa. [온라인]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [온라인]
https://github.com/lh3/minimap2
Boost Genomic Sequencing with Falcon Accelerated Genomics Pipeline (FAGP) on Intel FPGA PAC
단일 인텔 FPGA 프로그래밍 가능 가속 카드를 사용하는 Falcon Accelerated Genomics 파이프라인은 대체 변형 호출 파이프라인을 통해 3시간 이내에 50배의 전체 인간 게놈을 처리할 수 있습니다.