Nota: Artigo escrito por Kihoon Yoon do HPC and AI Innovation Lab em dezembro de 2019
O novo hardware e o pipeline atualizado juntos aumentam o throughput três vezes mais em relação à Ready Solution anterior.
Visão geral
A análise da expressão gênica é tão importante quanto identificar polimorfismo de nucleotídeo único (SNP), inserção/deleção (indel) ou reestruturação cromossômica. Eventualmente, todos os eventos fisiológicos e bioquímicos dependem dos produtos finais de expressão gênica, as proteínas. Embora a maioria dos mamíferos tenha uma camada de controle adicional antes da expressão de proteínas, saber quantos transcritos existem em um sistema ajuda a caracterizar o status bioquímico de uma célula. Idealmente, uma tecnologia nos permite quantificar as proteínas inteiras em uma célula que poderia se destacar no progresso das Ciências da Vida significativamente; No entanto, estamos longe de o conseguir.
Aqui, neste blog, testamos um popular pipeline de análise de dados RNA-Seq conhecido como pipeline Tuxedo (1). O conjunto de pipelines Tuxedo oferece um conjunto de ferramentas para analisar uma variedade de dados de RNA-Seq, incluindo mapeamento de leitura curta, identificação de junções de emenda, detecção de transcritos e isoformas, expressão diferencial, visualizações e métricas de controle de qualidade. As etapas detalhadas no pipeline são mostradas na Figura 1. Esta versão atualizada do pipeline Tuxedo inclui a etapa Cuffquant em comparação com a versão antiga testada no blog anterior (2).
Figura 1 Atualização do Tuxedo Pipeline com a etapa
CuffquantAs configurações do cluster de teste estão resumidas na Tabela 1.
Tabela 1 Configuração testada do nó de computação |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16 GB @ 2933 MT/s |
OS |
RHEL 5.6 |
Interconexão |
Intel® Omni-Path |
Perfil do sistema BIOS |
Desempenho otimizado |
Processador lógico |
Disabled |
Tecnologia de virtualização |
Disabled |
cartola |
2.1.1 |
gravata borboleta2 |
2.2.5 |
R |
3.6 |
Biocondutor-Cummerbund |
2.26.0 |
Os nós de computação testados foram conectados à Dell EMC Ready Solution for Lustre Storage por meio do Intel® Omni-Path (3). A configuração resumida do armazenamento está listada na Tabela 2.
Tabela 2 Especificações de hardware e software da Lustre Storage Solution |
|
Dell EMC Ready Solution for Lustre Storage |
|
Número de nós |
1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML) |
Processadores |
Servidor IML: Intel Xeon Gold 5118 duplo @ 2,3 GHz |
Memória |
Servidor IML: 12 RDIMMs DDR4 de 8 GB e 2.666 MT/s |
Armazenamento |
2 HBAs SAS Dell de 12 Gb/s (em cada MDS) |
Armazenamento em |
4 ME4084 com um total de 336 discos rígidos SAS NL de 7.200 RPM de 8 TB |
Armazenamento de |
1 ME4024 com 24 SSDs SAS de 960 GB. Compatível com até 4,688 bilhões de arquivos/inodes |
Controladores RAID |
RAID duplex nos compartimentos ME4084 e ME4024 |
Sistema operacional |
CentOS 7.5 x86_64 |
Versão do kernel |
3.10.0-862.el7.x86_64 |
Versão do BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
File system |
2.10.4 |
Versão do IML |
4.0.7.0 |
Um estudo de desempenho do pipeline RNA-Seq não é trivial porque o fluxo de trabalho da natureza requer arquivos de entrada não idênticos. 185 Os dados de leitura de final pareado RNA-Seq são coletados de um repositório de dados público. Todos os arquivos de dados de leitura contêm cerca de 25 milhões de fragmentos (MF) e têm comprimentos de leitura semelhantes. As amostras para um teste selecionadas aleatoriamente do pool de 185 arquivos de leitura pareados. Embora esses dados selecionados aleatoriamente não tenham nenhum significado biológico, certamente esses dados com alto nível de ruído colocarão os testes no pior cenário.
Avaliação de Desempenho
Teste
de duas amostrasNa Figura 2, o tempo de execução de cada etapa é plotado. O teste foi executado em dois nós de computação com duas amostras contendo aproximadamente 25 milhões de dados de leitura de RNA-Seq. A etapa Tophat é iniciada para cada amostra em um nó de computação em paralelo. Posteriormente, Cufflinks começa após a conclusão de Tophat. A etapa Cuffmerge combina os resultados das duas execuções do Cufflinks. A etapa Cuffquant é adicionada para quantificar a expressão gênica em cada amostra, e os resultados são examinados mais adiante nas etapas Cuffdiff e Cuffnorm. Última etapa, o CummeRbund é uma etapa de análise estatística do pacote R do CummeRbund e gera um relatório visualizado, conforme mostrado na Figura 2.
Figura 2 Tempo total de execução do pipeline do Tuxedo com duas amostras: SRR1608490 e SRR934809.
A Figura 3 mostra genes diferencialmente expressos de 8 amostras executadas (cada amostra consiste de 4 duplicatas) em vermelho com valores de p significativamente menores (eixo Y) em comparação com outras expressões gênicas ilustradas em preto1º. O eixo X é a dobra das mudanças na base logarítmica de 2, e essas mudanças de dobra de cada gene são plotadas contra os valores de p. Mais amostras trarão uma melhor estimativa da expressão gênica. O gráfico superior direito são expressões gênicas na amostra 2 em comparação com a amostra 1, enquanto o gráfico inferior esquerdo são expressões gênicas na amostra 1 em comparação com a amostra 2. A expressão gênica em pontos pretos não é significativamente diferente em ambas as amostras.
Figura 3 Gráfico de vulcão dos resultados
de CuffdiffTeste de Throughput – Tubulação única com mais de duas amostras, duplicatas biológicas
e técnicasOs estudos típicos de RNA-Seq consistem em múltiplas amostras, às vezes 100s de amostras diferentes, amostras normais versus doença ou amostras não tratadas versus tratadas. Essas amostras tendem a apresentar alto nível de ruído devido a suas razões biológicas; portanto, a análise requer um procedimento vigoroso de pré-processamento de dados.
Testamos vários números de amostras (todos os diferentes dados RNA-Seq selecionados de um conjunto de dados de leituras pareadas de 185 pares) para ver a quantidade de dados que pode ser processada por 8 nós em um cluster do PowerEdge C6420. Como mostrado na Figura 4, os tempos de execução com 2, 4, 8, 16, 32 e 64 amostras crescem exponencialmente quando o número de amostras aumenta. O número de bilhões de fragmentos/dia aumentou quase três vezes com o armazenamento do Cascade Lake 6248/LustreME4 e o pipeline atualizado.
Figura 4 As comparações de throughput com 8 C6420s entre as etapas Cascade Lake 6248/LustreME4 e Skylake 6148/H600
não diminuem significativamente à medida que o número de amostras aumenta, enquanto as etapas Cuffdiff e Cuffnorm diminuem significativamente. Especialmente, a etapa de Cuffdiff torna-se um gargalo para o pipeline, uma vez que o tempo de execução cresce exponencialmente (Figura 5). Embora o tempo de execução de Cuffnorm aumente exponencialmente como Cuffdiff, é ignorante, uma vez que o tempo de execução de Cuffstandard é limitado pelo tempo de execução de Cuffdiff. A adição da etapa Cuffquant melhorou significativamente o tempo de execução do Cuffdiff. 30 horas de redução de tempo de execução na etapa Cuffdiff, e Cuffnorm completou 20 horas mais rápido com a etapa Cuffquant. Embora o ganho de desempenho de Cuffnorm não seja visível, uma vez que Cuffdiff e Cuffnorm começam ao mesmo tempo.
Figura 5 Incremento de tempo de execução no Cuffdiff e no Cuffnorm
Conclusão
Os resultados do teste de throughput mostram que o PowerEdge C6420s de 8 nós com o armazenamento Lustre pode processar aproximadamente 2,7 bilhões de fragmentos de 64 amostras com ~50 milhões de leituras pareadas cada (25 MF) por meio do pipeline Tuxedo ilustrado na Figura 1. Como o Tuxedo Pipeline é relativamente mais rápido do que outros pipelines populares, é difícil generalizar ou utilizar esses resultados para dimensionar um sistema HPC com precisão. No entanto, os resultados podem ajudar a fazer uma estimativa aproximada do tamanho do sistema de HPC.
Recursos
1º. Expressão Gênica Diferencial RNA-Seq: Tutorial básico. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
algarismo. Referência de desempenho de pipeline de RNA-Seq com Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3º. Dell EMC Ready Solution for HPC Lustre Storage. [Link inativo em 07/2024]
Nota: estes são selecionados aleatoriamente a partir de um conjunto de amostras sem quaisquer associações significativas entre eles.