Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell EMC DSS 8440 서버와 NVIDIA T4 GPU가 탑재된 NVIDIA Clara Parabricks를 사용한 게놈 데이터 분석 가속화

Summary: 이 문서에서는 NVIDIA T4 GPU가 탑재된 Dell EMC DSS 8440에서 NVIDIA Parabricks를 사용하여 게놈 데이터 분석을 가속화하는 방법에 대해 설명합니다.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

개요

NGS(Next Generation Sequencing) 데이터를 처리하는 첫 번째 단계를 1차 분석이라고 합니다. 이 단계는 염기 서열 분석 장비에 특정하며 염기 서열 분석 읽기가 포함된 여러 개의 FASTQ 파일을 생성합니다. 2차 분석이라고 하는 다음 단계에서는 FASTQ 염기 서열 분석 읽기가 참조 게놈 또는 참조 유전체에 매핑됩니다. 추가 처리는 관심 있는 샘플과 참조 간의 변형 또는 차이를 식별합니다. 변형은 후속 다운스트림 단계에서 주석이 달리고 해석됩니다. 단일 샘플의 2차 분석 시간은 데이터 크기, 사용 가능한 컴퓨팅 리소스, 소프트웨어 및 분석 워크플로에 따라 몇 시간에서 며칠까지 소요됩니다. 

2차 분석은 특히 수백 개에서 수천 개의 게놈을 처리할 때 컴퓨팅 및 스토리지 집약적인 프로세스입니다. 2차 분석 병목 현상을 방지하기 위한 많은 전략이 있습니다. 최근까지 GPU 또는 FPGA를 사용하는 하드웨어 가속화의 도입은 하드웨어 가속기에 필요한 맞춤 구성된 소프트웨어로 인해 낮은 수준이었습니다. 2019년 NVIDIA에서 인수한 Parabricks의 유전체학 소프트웨어는 GPU를 사용하여 다양한 게놈 분석 워크플로를 수행하는 소프트웨어 스택을 개척했습니다. 약 2년 전에는 Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 GPU를 사용하여 Parabricks를 테스트했습니다. Dell은 자체 서버 및 스토리지 솔루션에 많은 기술적 발전 사항을 도입했으며 NVIDIA Clara Parabricks는 향상된 가속 기능과 변형 모델 호출자의 추가 기능을 갖춘 강력한 버전을 릴리스했습니다. 예를 들어, NVIDIA® Tesla® T4 GPU를 탑재한 Dell EMC DSS 8440 서버를 기반으로 한 다중 GPU 서버 설계는 가격과 성능 간에 매력적인 균형을 제공하면서 2차 분석을 가속화하기에 유망한 것으로 보였습니다.  이 블로그에서는 Dell EMC Isilon F800 스토리지를 탑재한 다중 Tesla® T4 GPU, DSS 8440 서버에서 NVIDIA Clara Parabricks의 2차 분석에 대한 새로운 참조 아키텍처와 벤치마크 결과를 보고합니다.

참조 아키텍처

그림 1은 테스트 완료된 참조 아키텍처를 보여 줍니다. 이 아키텍처는 모듈형이며 확장이 용이합니다. NVIDIA Clara Parabricks 애플리케이션 소프트웨어는 하나 이상의 GPU를 사용하여 스케일 아웃을 최대한 간단하게 수행합니다. 하드웨어 구성 요소는 관리 노드인 Dell EMC PowerEdge R640, GPU 컴퓨팅용 DSS 8440 서버 및 Dell EMC Isilon F800 스토리지로 구성됩니다.


그림 1 테스트 완료된 참조 아키텍처


DSS 8440, 소켓 2개, 4U 서버는 최대 10개의 업계 최고 NVIDIA® Tesla® V100S Tensor Core GPU, 최대 10개의 NVIDIA® Quadro RTX™ GPU 또는 최대 16개의 NVIDIA Tesla T4 GPU를 장착하여 놀라운 성능을 제공합니다. DSS 8440의 상세한 구성은 표 1에 나와 있습니다.

 
Dell EMC DSS 8440
CPU 제온® Gold 6248R 24코어 3.0Ghz 2개
RAM 2933MTps에서 24x 64GB
운영 체제 Red Hat Enterprise Linux Server 릴리스 7.4(Maipo)
BIOS 시스템 프로필 성능 최적화
논리 프로세서 비활성화됨
가상화 기술 비활성화됨
가속기 16x NVIDIA® Tesla® T4 GPU
Parabricks v3.0.0.05

Z9100-ON 스위치 두 개로 컴퓨팅 노드와 Isilon F800 스토리지 클러스터를 상호 연결했습니다. 관리에 추가 스위치 N2248X-ON이 사용됩니다.

NGS 데이터

2차 분석 런타임 벤치마킹 데이터는 각각 10배, 30배, 50배 샘플 범위를 나타내는 3개의 인간 WGS(Whole Genome Sequencing) 데이터 세트인 ERR091571, SRR3124837ERR194161로 구성되었습니다. 이러한 데이터 세트는 ENA(European Nucleotide Archive)에서 사용할 수 있습니다.

성능 평가

소프트웨어 개선 사항으로 런타임 감소
NVIDIA는 NVIDIA Clara Parabricks에 소프트웨어 개선 사항을 계속 도입하고 있습니다. 그림 2는 4x V100 GPU 테스트 환경에서 Dell PowerEdge C4140 서버를 사용하여 생식 세포 파이프라인을 실행하는 Parabricks의 두 버전 간 런타임 감소를 보여줍니다. v2.1.0에서 v3.0.0으로 전환하여 런타임이 42% 감소했습니다.


그림 2 파이프라인 런타임을 호출하는 최신 버전의 Parabricks 생식 세포 변형

16x T4를 사용하는 DSS 8440의 성능

단일 T4 GPU를 사용한 NVIDIA Clara Parabricks 2차 분석의 런타임은 V100 GPU를 사용할 때보다 약 30% 느립니다. 그러나 T4 GPU 2개는 V100 GPU 1개보다 약 10% 더 많은 TFLOPS를 약 절반의 비용으로 제공합니다. DSS 8440은 최대 16개의 PCIe 슬롯을 제공하므로 4개의 V100 GPU가 탑재된 C4140 시스템과 비슷한 런타임 성능을 더욱 저렴한 비용으로 제공하는 T4 GPU 기반 서버를 설계할 수 있습니다.
Parabricks 생식 세포 분석은 16개의 T4 GPU가 탑재된 PowerEdge DSS 8440을 사용하여 수행되었습니다. 앞에서 설명한 각 WGS 샘플 데이터 세트에 대한 런타임은 2차 분석 시 1, 2, 4, 8 및 16개의 T4 GPU를 사용하여 기록되었습니다. 결과는 그림 3~5에 나와 있습니다. 전체적으로, 분석당 GPU 수가 증가해도 런타임이 계속 증가하지 않습니다. 확장 패턴은 샘플당 데이터 양이 10배에서 50배 범위로 증가하는 것과 비슷합니다. 
여기에 나와 있지는 않지만 분석당 8개 이상의 V100 GPU를 사용한 Parabricks 런타임 결과에 대한 초기 Dell EMC 조사는 T4 GPU만큼 효율적으로 확장되지 않았습니다. 추가 테스트는 6개의 T4 GPU가 4개의 V100 GPU와 거의 동일한 런타임 결과를 생성한다는 점을 보여주었습니다.


그림 3 10x WGS 사용 시 성능 비교


그림 4 30x WGS 사용 시 성능 비교


그림 5 50x WGS 사용 시 성능 비교


결론

16개의 T4 GPU를 탑재한 DSS 8440은 하루에 30개의 50x 인간 게놈을 처리할 수 있습니다. 기존 x86 CPU 아키텍처를 사용하는 비슷한 일일 분석 처리량에는 10개의 PowerEdge C6420 컴퓨팅 노드가 필요합니다. 전체 아키텍처는 이전 Dell 간행물에 설명되어 있습니다.
그러나 16개의 T4 GPU를 모두 사용하여 하나의 샘플을 처리하는 것은 이점이 거의 없습니다. 분석당 16개의 GPU를 사용하는 것이 8개의 GPU를 사용하는 것보다 기껏해야 10% 더 빠르기 때문입니다. DSS 8440은 여러 번의 2차 분석을 병렬로 수행할 수 있도록 설계되었습니다. 샘플당 8개의 T4 GPU를 할당하면 일일 분석 처리량이 하루에 최대 50개의 게놈으로 증가합니다. 샘플당 4개의 GPU를 사용하면 분석 처리량이 하루에 최대 70개의 게놈으로 증가합니다. 가장 중요한 것은 T4 GPU를 사용한 일일 출력이 V100 GPU 설계를 사용하는 비용의 절반에도 못 미친다는 것입니다.
속도 외에도 다른 분석 툴과의 호환성은 결과의 비교에 필수적입니다. Parabricks 생식 세포 분석 결과는 이전 테스트의 잘 알려진 BWA-GATK Haplotype 호출자 분석과 거의 동일합니다.  또한 Parabricks 변형 호출 결과를 samtools/mpileup 같은 다른 툴 세트와 비교하고자 했습니다.  이 두 개의 완전히 다른 툴은 확인된 변형에 대해 전체적으로 최대 90% 일치하며, 중요한 유전자를 포함하는 잘 알려진 여러 게놈 영역의 변형은 99% 이상 일치합니다.

Article Properties


Affected Product

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640

Last Published Date

03 Dec 2020

Version

1

Article Type

How To