참고: 작성자: HPC 및 AI Innovation Lab의 Kihoon Yoon, 2019년 12월
새로운 하드웨어와 업데이트된 파이프라인을 함께 사용하면 이전 Ready Solution보다 처리량이 3배 더 증가합니다.
개요
유전자 발현 분석은 SNP(Single Nucleotide Polymorphism), indel(insertion/deletion) 또는 염색체 재구성을 식별하는 것만큼 중요합니다. 결국, 전체 생리적 및 생화학적 이벤트는 최종 유전자 발현 산물인 단백질에 달려 있습니다. 대부분의 포유류는 단백질 발현 전에 추가적인 제어 계층을 가지고 있지만, 시스템에 얼마나 많은 전사체가 존재하는지 알면 세포의 생화학적 상태의 특성을 분석하는 데 도움이 됩니다. 이상적으로는 기술을 통해 생명과학의 발전에 크게 기여할 수 있는 세포 내 전체 단백질을 정량화할 수 있지만, 아직 이를 달성하기에는 갈 길이 멉니다.
이 블로그에서는 Tuxedo 파이프라인으로 알려져 널리 사용되는 RNA-Seq 데이터 분석 파이프라인을 테스트합니다(1). Tuxedo 파이프라인 제품군은 단기 판독 매핑, 스플라이스 접합 식별, 전사체 및 동형 검출, 차등 발현, 시각화 및 품질 관리 메트릭을 비롯한 여러 RNA-Seq 데이터를 분석하는 데 사용하는 다양한 툴을 제공합니다. 파이프라인의 자세한 단계는 그림 1에 나와 있습니다. 이 업데이트된 버전의 Tuxedo 파이프라인에는 이전 블로그에서 테스트한 이전 버전과 비교한 Cuffquant 단계가 포함되어 있습니다(2).
그림 1 Cuffquant 단계를 적용한 Tuxedo 파이프라인 업데이트
테스트 클러스터의 구성은 표 1에 요약되어 있습니다.
표 1 테스트를 거친 컴퓨팅 노드 구성 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2개의 제온® Gold 6248 20c 2.5GHz(Cascade Lake) |
RAM |
12개의 16GB @2933MT/s |
OS |
RHEL 7.6 |
상호 연결 |
인텔® Omni-Path |
BIOS 시스템 프로필 |
성능 최적화 |
논리 프로세서 |
Disabled |
가상화 기술 |
Disabled |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
테스트를 거친 컴퓨팅 노드는 인텔® Omni-Path를 통해 Lustre Storage용 Dell EMC Ready Solution에 연결되었습니다(3). 스토리지의 요약 구성은 표 2에 나와 있습니다.
표 2 Lustre 스토리지 솔루션 하드웨어 및 소프트웨어 사양 |
|
Dell EMC Ready Solution for Lustre Storage |
|
노드 수 |
IML(Integrated Manager for Lustre)로서의 Dell EMC PowerEdge R640 1개 |
프로세서 |
IML 서버: 듀얼 인텔 제온 Gold 5118 @ 2.3GHz |
메모리 |
IML 서버: 8GB 2,666MT/s DDR4 RDIMM 12개 |
외장형 스토리지 |
각 MDS에 Dell 12Gb/s SAS HBA 2개 |
오브젝트 스토리지 |
ME4084 4개(총 8TB NL 7.2K rpm SAS HDD 336개 포함) |
메타데이터 스토리지 |
ME4024 1개(960GB SAS SSD 24개 포함) 최대 4.688B 파일/inode 지원 |
RAID 컨트롤러 |
ME4084 및 ME4024 인클로저의 듀플렉스 RAID |
운영 체제 |
CentOS 7.5 x86_64 |
커널 버전 |
3.10.0-862.el7.x86_64 |
BIOS 버전 |
1.4.5 |
인텔 Omni-Path |
10.8.0.0 |
Lustre 파일 시스템 |
2.10.4 |
IML 버전 |
4.0.7.0 |
RNA-Seq 파이프라인의 성능 연구는 쉽지 않습니다. 왜냐하면 자연 워크플로의 특성상 비일치하는 입력 파일이 필요하기 때문입니다. 185개의 RNA-Seq 페어링 엔드 읽기 데이터가 공공 데이터 리포지토리에서 수집되었습니다. 모든 읽기 데이터 파일에는 약 2,500만 개의 조각이 포함되어 있으며, 읽기 길이는 유사합니다. 185개의 페어링 엔드 읽기 파일 풀에서 임의로 선택된 테스트의 샘플입니다. 이렇게 무작위로 선택된 데이터에는 생물학적 의미가 없지만, 노이즈 수준이 확실히 높아 최악의 시나리오에서 테스트를 수행할 수 있습니다.
성능 평가
2개의 샘플 테스트
그림 2에는 각 단계의 런타임이 표시됩니다. 이 테스트는 2개의 컴퓨팅 노드에서 실행되었으며, 2개의 샘플에는 약 2,500만 개의 읽기 RNA-Seq 데이터가 포함되어 있습니다. Tophat 단계는 컴퓨팅 노드의 각 샘플에 대해 병렬로 시작됩니다. 그 후, Cufflink가 Tophat의 완료와 함께 시작됩니다. Cuffmerge 단계는 두 Cufflink 실행의 결과를 결합합니다. Cuffquant 단계를 추가하여 각 샘플에서 유전자 발현을 정량화하고, Cuffdiff 및 Cuffnorm 단계에서 결과를 추가로 검사합니다. 마지막 단계인 CummeRbund는 CummeRbund R 패키지의 통계 분석 단계이며, 그림 2와 같이 시각화된 보고서를 생성합니다.그림 2 Tuxedo 파이프라인에서 2개의 샘플 SRR1608490 및 SRR934809를 사용하여 얻은 총 런타임
그림 3은 빨간색으로 표시된 8개 샘플 실행(4개의 중복으로 각 샘플 구성)에서 다르게 발현된 유전자를 보여주며, 검은색으로 표시된 다른 유전자 발현과 비교했을 때 p-값(Y축)이 상당히 낮습니다1. X축은 로그 베이스가 2인 접이식 변화이며, 각 유전자의 이러한 접이식 변화는 p-값에 대해 표시됩니다. 샘플이 많을수록 더 나은 유전자 발현을 추정할 수 있습니다. 오른쪽 상부 플롯은 샘플 1과 비교한 샘플 2의 유전자 발현이고, 왼쪽 하부 플롯은 샘플 2와 비교한 샘플 1의 유전자 발현입니다. 검은색 점으로 표시된 유전자 발현은 두 샘플 모두에서 크게 다르지 않습니다. 그림 3 Cuffdiff 분석 결과의 볼케이노 플롯
처리량 테스트 – 둘 이상의 샘플과 생물학적 및 기술적 복제가 있는 단일 파이프라인
전형적인 RNA-Seq 연구는 여러 개의 샘플로 구성되며, 정상 샘플과 질병 샘플, 치료받지 않은 샘플과 치료받은 샘플 등 서로 다른 샘플 수백 개로 이루어지기도 합니다. 이러한 샘플은 생물학적 이유로 인해 높은 수준의 노이즈를 갖는 경향이 있습니다. 따라서 분석 시 엄격한 데이터 전처리 절차가 필요합니다.
PowerEdge C6420 클러스터의 8개 노드에서 처리할 수 있는 데이터의 양을 확인하기 위해 다양한 수의 샘플(185개의 페어링 엔드 읽기 데이터 세트에서 선택한 모든 RNA-Seq 데이터)을 테스트했습니다. 그림 4에서 볼 수 있듯, 샘플 수가 늘어날수록 2, 4, 8, 16, 32, 64개의 샘플을 사용하는 런타임은 기하급수적으로 증가합니다. Cascade Lake 6248/LustreME4 스토리지와 업데이트된 파이프라인을 사용하니 하루에 처리되는 10억 개 조각 수가 약 3배 증가했습니다.그림 4 Cascade Lake 6248/LustreME4와 Skylake 6148/H600 간 8개의 C6420 처리량 비교
Cuffmerge 단계는 샘플 수가 증가해도 느려지지 않았지만, Cuffdiff와 Cuffnorm 단계는 크게 느려졌습니다. 특히 Cuffdiff 단계는 런타임이 기하급수적으로 증가하기 때문에 파이프라인의 병목 현상으로 작용합니다(그림 5). Cuffnorm의 런타임은 Cuffdiff처럼 기하급수적으로 증가하지만, Cuffdiff의 런타임이 Cuffnorm의 런타임을 제한하므로 무시해도 됩니다. Cuffquant 단계를 추가하니 Cuffdiff의 런타임이 크게 개선되었습니다. Cuffdiff 단계에서 런타임을 30시간 단축했고 Cuffnorm은 Cuffquant 단계를 적용하여 20시간 더 빠르게 완료했습니다. Cuffdiff와 Cuffnorm이 동시에 시작되기 때문에 Cuffnorm의 성능 향상은 드러나지 않습니다.
그림 5 Cuffdiff 및 Cuffnorm의 런타임 증분
결론
처리량 테스트 결과에 따르면, Lustre Storage를 사용하는 8개 노드 PowerEdge C6420은 그림 1에 나와 있는 Tuxedo 파이프라인을 통해 각각 약 5,000만 개의 페어링 읽기(25MF)로 64개 샘플에서 약 27억 개의 조각을 처리할 수 있습니다. Tuxedo 파이프라인은 널리 사용되는 다른 파이프라인보다 상대적으로 빠르기 때문에, 이러한 결과를 일반화하거나 활용하여 HPC 시스템의 크기를 정확하게 조정하기가 어렵습니다. 그러나 HPC 시스템의 크기를 대략적으로 추정하는 데는 도움이 될 수 있습니다.
리소스
1. RNA-Seq Differential Gene Expression: Basic Tutorial [온라인] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences [온라인] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf
3. Dell EMC Ready Solution for HPC Lustre Storage [2024년 7월 기준 링크 비활성]
참고: 이는 서로 의미 있는 연관성 없이 샘플 풀에서 무작위로 선택됩니다.