참고: 2019년 12월 HPC 및 AI Innovation Lab의 윤기훈 씨가 작성한 문서
새로운 하드웨어와 업데이트된 파이프라인을 함께 사용하면 이전 Ready Solution에 비해 처리량이 3배 더 증가합니다.
개요
유전자 발현 분석은 단일 뉴클레오티드 다형성(SNP), 삽입/결실(indel) 또는 염색체 재구성을 식별하는 것만큼 중요합니다. 결국, 전체 생리학적, 생화학적 사건은 최종 유전자 발현 산물인 단백질에 달려 있습니다. 대부분의 포유류는 단백질 발현 전에 추가 제어 층을 가지고 있지만, 시스템에 얼마나 많은 전사체가 존재하는지 알면 세포의 생화학적 상태를 특성화하는 데 도움이 됩니다. 이상적으로, 기술은 생명 과학의 발전에서 크게 탁월할 수 있는 세포의 전체 단백질을 정량화할 수 있도록 합니다. 그러나 우리는 그것을 달성하기에는 아직 멀었습니다.
이 블로그에서는 Tuxedo 파이프라인(1)으로 알려진 인기 있는 RNA-Seq 데이터 분석 파이프라인 중 하나를 테스트합니다. 턱시도 파이프라인 제품군 short-read mapping, splice junctions 식별, 전사체 및 isoform 검출, 미분 발현, 시각화 및 품질 관리 메트릭을 포함한 다양한 RNA-Seq 데이터를 분석하기 위한 도구 세트를 제공합니다. 파이프라인의 자세한 단계는 그림 1에 나와 있다. 이 업데이트된 버전의 Tuxedo 파이프라인에는 이전 블로그(2)에서 테스트한 이전 버전과 비교하는 Cuffquant 단계가 포함되어 있습니다.
그림 1 Cuffquant 단계로
업데이트된 Tuxedo 파이프라인테스트 클러스터의 구성은 표 1에 요약되어 있습니다.
표 1 테스트된 컴퓨팅 노드 구성 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2개의 제온® Gold 6248 20c 2.5GHz(Cascade Lake) |
RAM |
16GB @2933MT/s 12개 |
OS |
RHEL 7.6 |
상호 연결 |
인텔® Omni-Path |
BIOS 시스템 프로필 |
성능 최적화 |
논리 프로세서 |
Disabled |
가상화 기술 |
Disabled |
탑팻 |
2.1.1 |
나비 넥타이2 |
2.2.5 |
R |
3.6 |
바이오컨덕터-커머번드 |
2.26.0 |
테스트된 컴퓨팅 노드는 인텔® Omni-Path(3)를 통해 Dell EMC Ready Solution for Lustre Storage에 연결되었습니다. 스토리지의 요약 구성은 표 2에 나와 있습니다.
표 2 Lustre 스토리지 솔루션 하드웨어 및 소프트웨어 사양 |
|
Dell EMC Ready Solution for Lustre Storage |
|
노드 수 |
IML |
프로세서 |
IML 서버: 듀얼 인텔 제온 Gold 5118 @ 2.3GHz |
메모리 |
IML 서버: 8GB 2,666MT/s DDR4 RDIMM 12개 |
외장형 스토리지 |
Dell 12Gb/s SAS HBA 2개(각 MDS에 있음) |
오브젝트 스토리지 |
ME4084 4개, 총 336 x 8TB NL 7.2K RPM SAS HDD |
메타데이터 스토리지 |
ME4024 1개, 960GB SAS SSD 24개 탑재 최대 46억 8,880억 개의 파일/inode 지원 |
RAID 컨트롤러 |
ME4084 및 ME4024 인클로저의 듀플렉스 RAID |
운영 체제 |
CentOS 7.5 x86_64 |
커널 버전 |
3.10.0-862.el7.x86_64 |
BIOS 버전 |
1.4.5 |
인텔 Omni-Path |
10.8.0.0 |
Lustre 파일 시스템 |
2.10.4 |
IML 버전 |
4.0.7.0 |
RNA-Seq 파이프라인의 성능 연구는 자연 워크플로우에 동일하지 않은 입력 파일이 필요하기 때문에 간단하지 않습니다. 185 RNA-Seq paired-end read 데이터는 공개 데이터 저장소에서 수집됩니다.을 클릭합니다. 모든 읽기 데이터 파일은 약 2,500만 개의 MF(Fragment)를 포함하며 읽기 길이가 비슷합니다. 185개의 페어 엔드 읽기 파일 풀에서 무작위로 선택된 테스트용 샘플입니다. 무작위로 선택된 이러한 데이터는 생물학적 의미가 없지만 노이즈 수준이 높은 이러한 데이터는 테스트를 최악의 시나리오에 놓을 것입니다.
성능 평가
2표본 검정
그림 2에는 각 단계의 런타임이 표시되어 있습니다. 테스트는 약 2,500만 개의 RNA-Seq 판독 데이터가 포함된 두 개의 샘플이 있는 두 개의 컴퓨팅 노드에서 실행되었습니다. Tophat 단계는 컴퓨팅 노드의 각 샘플에 대해 병렬로 시작됩니다. 그 후, 커프스 단추는 Tophat이 완성되면 시작됩니다. 커프머지 단계는 두 개의 커프스 단추 실행의 결과를 결합합니다. 각 샘플에서 유전자 발현을 정량화하기 위해 Cuffquant 단계가 추가되고 결과는 Cuffdiff 및 Cuffnorm 단계에서 추가로 검사됩니다. 마지막 단계인 CummeRbund는 CummeRbund R-package의 통계 분석 단계로, 그림 2와 같이 시각화된 보고서를 생성합니다.
그림 2 두 개의 샘플이 있는 Tuxedo 파이프라인의 총 런타임: SRR1608490 및 SRR934809.
그림 3은 8개의 시료 실행(각 시료는 4개의 중복으로 구성)에서 차등적으로 발현된 유전자를 검은색으로 표시된 다른 유전자 발현에 비해 현저히 낮은 p-값(Y축)으로 빨간색으로 보여줍니다1. X축은 로그 밑이 2인 접힘 변화이며, 이러한 각 유전자의 접힘 변화는 p-값에 대해 표시됩니다. 샘플이 많을수록 유전자 발현 추정이 더 잘 됩니다. 오른쪽 위 그림은 샘플 1과 비교한 샘플 2의 유전자 발현이고, 왼쪽 아래 그림은 샘플 2와 비교한 샘플 1의 유전자 발현입니다. 검은 점의 유전자 발현은 두 샘플에서 크게 다르지 않습니다.
그림 3 Cuffdiff 결과
의 화산 플롯처리량 테스트 – 두 개 이상의 샘플이 있는 단일 파이프라인, 생물학적 및 기술적 중복
일반적인 RNA-Seq 연구는 여러 샘플, 때로는 100개의 서로 다른 샘플, 정상 대 질병 또는 미처리 대 처리된 샘플로 구성됩니다. 이러한 샘플은 생물학적 이유로 인해 높은 수준의 노이즈를 갖는 경향이 있습니다. 따라서 분석에는 활발한 데이터 전처리 절차가 필요합니다.
다양한 수의 샘플(185개의 페어 엔드 읽기 데이터 세트에서 선택된 서로 다른 RNA-Seq 데이터)을 테스트하여 PowerEdge C6420 클러스터의 8개 노드에서 처리할 수 있는 데이터의 양을 확인했습니다. 그림 4에서 볼 수 있듯이 2, 4, 8, 16, 32 및 64개 샘플의 런타임은 샘플 수가 증가함에 따라 기하급수적으로 증가합니다. Cascade Lake 6248/LustreME4 스토리지와 업데이트된 파이프라인을 통해 일일 10억 개 조각의 수가 거의 3배 증가했습니다.
그림 4 Cascade Lake 6248/LustreME4와 Skylake 6148/H600
간의 C6420 8개 처리량 비교샘플 수가 증가해도 Cuffmerge 단계는 느려지지 않는 반면 Cuffdiff 및 Cuffnorm 단계는 크게 느려집니다. 특히 Cuffdiff 단계는 실행 시간이 기하급수적으로 증가하기 때문에 파이프라인의 병목 현상이 됩니다(그림 5). Cuffnorm의 런타임은 Cuffdiff처럼 기하급수적으로 증가하지만 Cuffnorm의 런타임은 Cuffdiff의 런타임에 의해 제한되기 때문에 무시할 수 있습니다. Cuffquant 단계를 추가하면 Cuffdiff의 런타임이 크게 향상되었습니다. Cuffdiff 단계에서 30시간의 런타임 감소가 있었고 Cuffnorm은 Cuffquant 단계로 20시간 더 빠르게 완료했습니다. Cuffdiff와 Cuffnorm이 동시에 시작되기 때문에 Cuffnorm의 성능 향상은 보이지 않습니다.
그림 5 Cuffdiff 및 Cuffnorm
의 런타임 증가결론
처리량 테스트 결과에 따르면 Lustre 스토리지를 사용하는 8노드 PowerEdge C6420은 그림 1에 나와 있는 Tuxedo 파이프라인을 통해 각각 ~5천만 개의 페어 읽기(25MF)로 64개 샘플의 약 27억 조각을 처리할 수 있습니다. Tuxedo 파이프라인은 널리 사용되는 다른 파이프라인보다 상대적으로 빠르기 때문에 이러한 결과를 일반화하거나 HPC 시스템의 정확한 사이징에 활용하기가 어렵습니다. 그러나 이 결과는 HPC 시스템의 규모를 대략적으로 추정하는 데 도움이 될 수 있습니다.
리소스
1. RNA-Seq 차등 유전자 발현: 기본 자습서. [온라인] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Dell EMC Ready Bundle for HPC Life Sciences를 사용한 RNA-Seq 파이프라인 벤치마크. [온라인] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage. [2024년 7월 현재 링크 데드]
참고: 이들은 표본 풀에서 의미 있는 연관성 없이 무작위로 선택됩니다.