Article Number: 000124142

Dell EMC Ready Solution for HPC Life Sciences: Pipeline da Tuxedo com CPU Cascade Lake e atualização do Lustre/ME4

Summary: Este artigo aborda o white paper intitulado "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline com CPU Cascade Lake e atualização Lustre/ME4".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Nota: Artigo escrito por Kihoon Yoon do HPC and AI Innovation Lab em dezembro de 2019
O novo hardware e o pipeline atualizado juntos aumentam o throughput três vezes mais em relação à Ready Solution anterior.

Visão geral
A análise da expressão gênica é tão importante quanto identificar polimorfismo de nucleotídeo único (SNP), inserção/deleção (indel) ou reestruturação cromossômica. Eventualmente, todos os eventos fisiológicos e bioquímicos dependem dos produtos finais de expressão gênica, as proteínas. Embora a maioria dos mamíferos tenha uma camada de controle adicional antes da expressão de proteínas, saber quantos transcritos existem em um sistema ajuda a caracterizar o status bioquímico de uma célula. Idealmente, uma tecnologia nos permite quantificar as proteínas inteiras em uma célula que poderia se destacar no progresso das Ciências da Vida significativamente; No entanto, estamos longe de o conseguir.
Aqui, neste blog, testamos um popular pipeline de análise de dados RNA-Seq conhecido como pipeline Tuxedo (1). O conjunto de pipelines Tuxedo oferece um conjunto de ferramentas para analisar uma variedade de dados de RNA-Seq, incluindo mapeamento de leitura curta, identificação de junções de emenda, detecção de transcritos e isoformas, expressão diferencial, visualizações e métricas de controle de qualidade. As etapas detalhadas no pipeline são mostradas na Figura 1. Esta versão atualizada do pipeline Tuxedo inclui a etapa Cuffquant em comparação com a versão antiga testada no blog anterior (2).

Figura 1 Atualização do pipeline de Tuxedo com etapa de punho Figura 1 Atualização do Tuxedo Pipeline com a etapa

CuffquantAs configurações do cluster de teste estão resumidas na Tabela 1.

Tabela 1 Configuração testada do nó de computação
Dell EMC PowerEdge C6420
CPU	2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16 GB @ 2933 MT/s
OS	RHEL 5.6
Interconexão	Intel® Omni-Path
Perfil do sistema BIOS	Desempenho otimizado
Processador lógico	Disabled
Tecnologia de virtualização	Disabled
cartola	2.1.1
gravata borboleta2	2.2.5
R	3.6
Biocondutor-Cummerbund	2.26.0

Os nós de computação testados foram conectados à Dell EMC Ready Solution for Lustre Storage por meio do Intel^® Omni-Path (3). A configuração resumida do armazenamento está listada na Tabela 2.

Tabela 2 Especificações de hardware e software da Lustre Storage Solution
Dell EMC Ready Solution for Lustre Storage
Número de nós	1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML) 2 Dell EMC PowerEdge R740 como servidor de metadados (MDS) 2 Dell EMC PowerEdge R740 como Object Storage Server (OSS)
Processadores	Servidor IML: Intel Xeon Gold 5118 duplo @ 2,3 GHz Servidores MDS e OSS: Intel Xeon Gold 6136 duplo @ 3,00 GHz
Memória	Servidor IML: 12 RDIMMs DDR4 de 8 GB e 2.666 MT/s Servidores MDS e OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMMs
Armazenamento externoControladores	2 HBAs SAS Dell de 12 Gb/s (em cada MDS) 4 HBAs SAS Dell de 12 Gb/s (em cada OSS)
Armazenamento em objetoCaixas	4 ME4084 com um total de 336 discos rígidos SAS NL de 7.200 RPM de 8 TB
Armazenamento de metadadosrecinto	1 ME4024 com 24 SSDs SAS de 960 GB. Compatível com até 4,688 bilhões de arquivos/inodes
Controladores RAID	RAID duplex nos compartimentos ME4084 e ME4024
Sistema operacional	CentOS 7.5 x86_64 x86_64 do Red Hat Enterprise Linux (RHEL) 7.5
Versão do kernel	3.10.0-862.el7.x86_64
Versão do BIOS	1.4.5
Intel Omni-Path Versão do IFS	10.8.0.0
File system LustreVersão	2.10.4
Versão do IML	4.0.7.0

Um estudo de desempenho do pipeline RNA-Seq não é trivial porque o fluxo de trabalho da natureza requer arquivos de entrada não idênticos. 185 Os dados de leitura de final pareado RNA-Seq são coletados de um repositório de dados público. Todos os arquivos de dados de leitura contêm cerca de 25 milhões de fragmentos (MF) e têm comprimentos de leitura semelhantes. As amostras para um teste selecionadas aleatoriamente do pool de 185 arquivos de leitura pareados. Embora esses dados selecionados aleatoriamente não tenham nenhum significado biológico, certamente esses dados com alto nível de ruído colocarão os testes no pior cenário.
Avaliação de Desempenho
Teste
de duas amostrasNa Figura 2, o tempo de execução de cada etapa é plotado. O teste foi executado em dois nós de computação com duas amostras contendo aproximadamente 25 milhões de dados de leitura de RNA-Seq. A etapa Tophat é iniciada para cada amostra em um nó de computação em paralelo. Posteriormente, Cufflinks começa após a conclusão de Tophat. A etapa Cuffmerge combina os resultados das duas execuções do Cufflinks. A etapa Cuffquant é adicionada para quantificar a expressão gênica em cada amostra, e os resultados são examinados mais adiante nas etapas Cuffdiff e Cuffnorm. Última etapa, o CummeRbund é uma etapa de análise estatística do pacote R do CummeRbund e gera um relatório visualizado, conforme mostrado na Figura 2.

Figura 2 Tempo total de execução do pipeline do Tuxedo com duas amostras: SRR1608490 e SRR934809. Figura 2 Tempo total de execução do pipeline do Tuxedo com duas amostras: SRR1608490 e SRR934809.

A Figura 3 mostra genes diferencialmente expressos de 8 amostras executadas (cada amostra consiste de 4 duplicatas) em vermelho com valores de p significativamente menores (eixo Y) em comparação com outras expressões gênicas ilustradas em preto 1º. O eixo X é a dobra das mudanças na base logarítmica de 2, e essas mudanças de dobra de cada gene são plotadas contra os valores de p. Mais amostras trarão uma melhor estimativa da expressão gênica. O gráfico superior direito são expressões gênicas na amostra 2 em comparação com a amostra 1, enquanto o gráfico inferior esquerdo são expressões gênicas na amostra 1 em comparação com a amostra 2. A expressão gênica em pontos pretos não é significativamente diferente em ambas as amostras.

Figura 3 Gráfico de vulcão dos resultados
de CuffdiffTeste de Throughput – Tubulação única com mais de duas amostras, duplicatas biológicas
e técnicasOs estudos típicos de RNA-Seq consistem em múltiplas amostras, às vezes 100s de amostras diferentes, amostras normais versus doença ou amostras não tratadas versus tratadas. Essas amostras tendem a apresentar alto nível de ruído devido a suas razões biológicas; portanto, a análise requer um procedimento vigoroso de pré-processamento de dados.

Testamos vários números de amostras (todos os diferentes dados RNA-Seq selecionados de um conjunto de dados de leituras pareadas de 185 pares) para ver a quantidade de dados que pode ser processada por 8 nós em um cluster do PowerEdge C6420. Como mostrado na Figura 4, os tempos de execução com 2, 4, 8, 16, 32 e 64 amostras crescem exponencialmente quando o número de amostras aumenta. O número de bilhões de fragmentos/dia aumentou quase três vezes com o armazenamento do Cascade Lake 6248/LustreME4 e o pipeline atualizado.

Figura 4 Comparações de throughput com 8 C6420s entre o Cascade Lake 6248/LustreME4 e o Skylake 6148/H600 Figura 4 As comparações de throughput com 8 C6420s entre as etapas Cascade Lake 6248/LustreME4 e Skylake 6148/H600

não diminuem significativamente à medida que o número de amostras aumenta, enquanto as etapas Cuffdiff e Cuffnorm diminuem significativamente. Especialmente, a etapa de Cuffdiff torna-se um gargalo para o pipeline, uma vez que o tempo de execução cresce exponencialmente (Figura 5). Embora o tempo de execução de Cuffnorm aumente exponencialmente como Cuffdiff, é ignorante, uma vez que o tempo de execução de Cuffstandard é limitado pelo tempo de execução de Cuffdiff. A adição da etapa Cuffquant melhorou significativamente o tempo de execução do Cuffdiff. 30 horas de redução de tempo de execução na etapa Cuffdiff, e Cuffnorm completou 20 horas mais rápido com a etapa Cuffquant. Embora o ganho de desempenho de Cuffnorm não seja visível, uma vez que Cuffdiff e Cuffnorm começam ao mesmo tempo.

Figura 5 Incremento de tempo de execução em Cuffdiff e Cuffnorm
Figura 5 Incremento de tempo de execução no Cuffdiff e no Cuffnorm
Conclusão
Os resultados do teste de throughput mostram que o PowerEdge C6420s de 8 nós com o armazenamento Lustre pode processar aproximadamente 2,7 bilhões de fragmentos de 64 amostras com ~50 milhões de leituras pareadas cada (25 MF) por meio do pipeline Tuxedo ilustrado na Figura 1. Como o Tuxedo Pipeline é relativamente mais rápido do que outros pipelines populares, é difícil generalizar ou utilizar esses resultados para dimensionar um sistema HPC com precisão. No entanto, os resultados podem ajudar a fazer uma estimativa aproximada do tamanho do sistema de HPC.

Recursos
1º. Expressão Gênica Diferencial RNA-Seq: Tutorial básico. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
algarismo. Referência de desempenho de pipeline de RNA-Seq com Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3º. Dell EMC Ready Solution for HPC Lustre Storage. [Link inativo em 07/2024]

Nota: estes são selecionados aleatoriamente a partir de um conjunto de amostras sem quaisquer associações significativas entre eles.

Article Properties

Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Dell EMC Ready Solution for HPC Life Sciences: Pipeline da Tuxedo com CPU Cascade Lake e atualização do Lustre/ME4

Summary: Este artigo aborda o white paper intitulado "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline com CPU Cascade Lake e atualização Lustre/ME4".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Dell EMC Ready Solution for HPC Life Sciences: Pipeline da Tuxedo com CPU Cascade Lake e atualização do Lustre/ME4

Summary: Este artigo aborda o white paper intitulado "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline com CPU Cascade Lake e atualização Lustre/ME4".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type