Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution for HPC Life Sciences: Pipeline da Tuxedo com CPU Cascade Lake e atualização do Lustre/ME4

Summary: Este artigo aborda o white paper intitulado "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline com CPU Cascade Lake e atualização Lustre/ME4".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Nota: Artigo escrito por Kihoon Yoon do HPC and AI Innovation Lab em dezembro de 2019
O novo hardware e o pipeline atualizado juntos aumentam o throughput três vezes mais em relação à Ready Solution anterior.

Visão geral
A análise da expressão gênica é tão importante quanto identificar polimorfismo de nucleotídeo único (SNP), inserção/deleção (indel) ou reestruturação cromossômica. Eventualmente, todos os eventos fisiológicos e bioquímicos dependem dos produtos finais de expressão gênica, as proteínas. Embora a maioria dos mamíferos tenha uma camada de controle adicional antes da expressão de proteínas, saber quantos transcritos existem em um sistema ajuda a caracterizar o status bioquímico de uma célula. Idealmente, uma tecnologia nos permite quantificar as proteínas inteiras em uma célula que poderia se destacar no progresso das Ciências da Vida significativamente; No entanto, estamos longe de o conseguir. 
Aqui, neste blog, testamos um popular pipeline de análise de dados RNA-Seq conhecido como pipeline Tuxedo (1). O conjuntoEsse hiperlink direcionará você para um site fora da Dell Technologies. de pipelines Tuxedo oferece um conjunto de ferramentas para analisar uma variedade de dados de RNA-Seq, incluindo mapeamento de leitura curta, identificação de junções de emenda, detecção de transcritos e isoformas, expressão diferencial, visualizações e métricas de controle de qualidade. As etapas detalhadas no pipeline são mostradas na Figura 1. Esta versão atualizada do pipeline Tuxedo inclui a etapa Cuffquant em comparação com a versão antiga testada no blog anterior (2).

Figura 1 Atualização do pipeline de Tuxedo com etapa de punhoFigura 1 Atualização do Tuxedo Pipeline com a etapa

CuffquantAs configurações do cluster de teste estão resumidas na Tabela 1.

Tabela 1 Configuração testada do nó de computação

Dell EMC PowerEdge C6420

CPU

2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16 GB @ 2933 MT/s

OS

RHEL 5.6

Interconexão

Intel® Omni-Path

Perfil do sistema BIOS

Desempenho otimizado

Processador lógico

Disabled

Tecnologia de virtualização

Disabled

cartola

2.1.1

gravata borboleta2

2.2.5

R

3.6

Biocondutor-Cummerbund

2.26.0


Os nós de computação testados foram conectados à Dell EMC Ready Solution for Lustre Storage por meio do Intel® Omni-Path (3). A configuração resumida do armazenamento está listada na Tabela 2.

Tabela 2 Especificações de hardware e software da Lustre Storage Solution

Dell EMC Ready Solution for Lustre Storage

Número de nós

1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML)
2 Dell EMC PowerEdge R740 como servidor de metadados (MDS)
2 Dell EMC PowerEdge R740 como Object Storage Server (OSS)

Processadores

Servidor IML: Intel Xeon Gold 5118 duplo @ 2,3 GHz
Servidores MDS e OSS: Intel Xeon Gold 6136 duplo @ 3,00 GHz

Memória

Servidor IML: 12 RDIMMs DDR4 de 8 GB e 2.666 MT/s
Servidores MDS e OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMMs

Armazenamento
externoControladores

2 HBAs SAS Dell de 12 Gb/s (em cada MDS)
4 HBAs SAS Dell de 12 Gb/s (em cada OSS)

Armazenamento em
objetoCaixas

4 ME4084 com um total de 336 discos rígidos SAS NL de 7.200 RPM de 8 TB

Armazenamento de
metadadosrecinto

1 ME4024 com 24 SSDs SAS de 960 GB. Compatível com até 4,688 bilhões de arquivos/inodes

Controladores RAID

RAID duplex nos compartimentos ME4084 e ME4024

Sistema operacional

CentOS 7.5 x86_64
x86_64 do Red Hat Enterprise Linux (RHEL) 7.5

Versão do kernel

3.10.0-862.el7.x86_64

Versão do BIOS

1.4.5

Intel Omni-Path
Versão do IFS

10.8.0.0

File system
LustreVersão

2.10.4

Versão do IML

4.0.7.0


Um estudo de desempenho do pipeline RNA-Seq não é trivial porque o fluxo de trabalho da natureza requer arquivos de entrada não idênticos. 185 Os dados de leitura de final pareado RNA-Seq são coletados de um repositórioEsse hiperlink direcionará você para um site fora da Dell Technologies. de dados público. Todos os arquivos de dados de leitura contêm cerca de 25 milhões de fragmentos (MF) e têm comprimentos de leitura semelhantes. As amostras para um teste selecionadas aleatoriamente do pool de 185 arquivos de leitura pareados. Embora esses dados selecionados aleatoriamente não tenham nenhum significado biológico, certamente esses dados com alto nível de ruído colocarão os testes no pior cenário.
Avaliação de Desempenho
Teste
de duas amostrasNa Figura 2, o tempo de execução de cada etapa é plotado. O teste foi executado em dois nós de computação com duas amostras contendo aproximadamente 25 milhões de dados de leitura de RNA-Seq. A etapa Tophat é iniciada para cada amostra em um nó de computação em paralelo. Posteriormente, Cufflinks começa após a conclusão de Tophat. A etapa Cuffmerge combina os resultados das duas execuções do Cufflinks. A etapa Cuffquant é adicionada para quantificar a expressão gênica em cada amostra, e os resultados são examinados mais adiante nas etapas Cuffdiff e Cuffnorm. Última etapa, o CummeRbund é uma etapa de análise estatística do pacote R do CummeRbund e gera um relatório visualizado, conforme mostrado na Figura 2.

Figura 2 Tempo total de execução do pipeline do Tuxedo com duas amostras: SRR1608490 e SRR934809.Figura 2 Tempo total de execução do pipeline do Tuxedo com duas amostras: SRR1608490 e SRR934809.

A Figura 3 mostra genes diferencialmente expressos de 8 amostras executadas (cada amostra consiste de 4 duplicatas) em vermelho com valores de p significativamente menores (eixo Y) em comparação com outras expressões gênicas ilustradas em preto. O eixo X é a dobra das mudanças na base logarítmica de 2, e essas mudanças de dobra de cada gene são plotadas contra os valores de p. Mais amostras trarão uma melhor estimativa da expressão gênica. O gráfico superior direito são expressões gênicas na amostra 2 em comparação com a amostra 1, enquanto o gráfico inferior esquerdo são expressões gênicas na amostra 1 em comparação com a amostra 2. A expressão gênica em pontos pretos não é significativamente diferente em ambas as amostras.


Figura 3 Gráfico de vulcão dos resultados de CuffdiffFigura 3 Gráfico de vulcão dos resultados
de CuffdiffTeste de Throughput – Tubulação única com mais de duas amostras, duplicatas biológicas
e técnicasOs estudos típicos de RNA-Seq consistem em múltiplas amostras, às vezes 100s de amostras diferentes, amostras normais versus doença ou amostras não tratadas versus tratadas. Essas amostras tendem a apresentar alto nível de ruído devido a suas razões biológicas; portanto, a análise requer um procedimento vigoroso de pré-processamento de dados.
 
Testamos vários números de amostras (todos os diferentes dados RNA-Seq selecionados de um conjunto de dados de leituras pareadas de 185 pares) para ver a quantidade de dados que pode ser processada por 8 nós em um cluster do PowerEdge C6420. Como mostrado na Figura 4, os tempos de execução com 2, 4, 8, 16, 32 e 64 amostras crescem exponencialmente quando o número de amostras aumenta. O número de bilhões de fragmentos/dia aumentou quase três vezes com o armazenamento do Cascade Lake 6248/LustreME4 e o pipeline atualizado.

Figura 4 Comparações de throughput com 8 C6420s entre o Cascade Lake 6248/LustreME4 e o Skylake 6148/H600Figura 4 As comparações de throughput com 8 C6420s entre as etapas Cascade Lake 6248/LustreME4 e Skylake 6148/H600

não diminuem significativamente à medida que o número de amostras aumenta, enquanto as etapas Cuffdiff e Cuffnorm diminuem significativamente. Especialmente, a etapa de Cuffdiff torna-se um gargalo para o pipeline, uma vez que o tempo de execução cresce exponencialmente (Figura 5). Embora o tempo de execução de Cuffnorm aumente exponencialmente como Cuffdiff, é ignorante, uma vez que o tempo de execução de Cuffstandard é limitado pelo tempo de execução de Cuffdiff.  A adição da etapa Cuffquant melhorou significativamente o tempo de execução do Cuffdiff. 30 horas de redução de tempo de execução na etapa Cuffdiff, e Cuffnorm completou 20 horas mais rápido com a etapa Cuffquant. Embora o ganho de desempenho de Cuffnorm não seja visível, uma vez que Cuffdiff e Cuffnorm começam ao mesmo tempo.


Figura 5 Incremento de tempo de execução em Cuffdiff e Cuffnorm
Figura 5 Incremento de tempo de execução no Cuffdiff e no Cuffnorm
Conclusão
Os resultados do teste de throughput mostram que o PowerEdge C6420s de 8 nós com o armazenamento Lustre pode processar aproximadamente 2,7 bilhões de fragmentos de 64 amostras com ~50 milhões de leituras pareadas cada (25 MF) por meio do pipeline Tuxedo ilustrado na Figura 1. Como o Tuxedo Pipeline é relativamente mais rápido do que outros pipelines populares, é difícil generalizar ou utilizar esses resultados para dimensionar um sistema HPC com precisão. No entanto, os resultados podem ajudar a fazer uma estimativa aproximada do tamanho do sistema de HPC.
 
Recursos
1º. Expressão Gênica Diferencial RNA-Seq: Tutorial básico. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Esse hiperlink direcionará você para um site fora da Dell Technologies.
algarismo. Referência de desempenho de pipeline de RNA-Seq com Dell EMC Ready Bundle for HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Esse hiperlink direcionará você para um site fora da Dell Technologies.
3º. Dell EMC Ready Solution for HPC Lustre Storage. [Link inativo em 07/2024]

Nota: estes são selecionados aleatoriamente a partir de um conjunto de amostras sem quaisquer associações significativas entre eles.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.