Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Acelerando a análise de dados genômicos com o NVIDIA Clara Parabricks, o servidor Dell EMC DSS 8440 e GPUs NVIDIA T4

Summary: Este artigo fornece informações sobre como acelerar a análise de dados genômicos usando o NVIDIA Parabricks no Dell EMC DSS 8440 com GPUs NVIDIA T4.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Visão geral

A primeira etapa para o processamento de dados de NGS (Next Generation Sequencing, Sequenciamento de Nova Geração) é chamada de análise primária. Essa etapa é específica do instrumento de sequenciamento e gera vários arquivos FASTQ contendo leituras de sequenciamento. Na próxima etapa, conhecida como análise secundária, as leituras de sequenciamento do FASTQ são mapeadas para um genoma de referência ou um transcriptoma de referência. O processamento adicional identifica variantes, ou diferenças, entre a amostra de interesse e uma referência. As variantes são anotadas e interpretadas em etapas posteriores subsequentes. O tempo de análise secundária de uma única amostra varia de horas a dias, dependendo do tamanho dos dados, dos recursos de computação disponíveis, do software e do fluxo de trabalho analítico. 

A análise secundária é um processo com uso intenso de computação e armazenamento, principalmente ao processar de centenas a milhares de genomas. Há muitas estratégias para evitar gargalos na análise secundária. Até recentemente, a adoção da aceleração de hardware usando GPUs ou FPGAs era baixa porque os aceleradores de hardware exigiam software personalizado. O software de análise de genoma da Parabricks, adquirido pela NVIDIA em 2019, foi a pilha de software pioneira na execução de vários fluxos de trabalho de análise de genoma usando GPUs. Testamos o Parabricks com o servidor Dell EMC PowerEdge C4140/4 GPUs NVIDIA® Tesla® V100 há cerca de dois anos. A Dell introduziu muitos avanços tecnológicos em seus servidores e suas soluções de armazenamento, e o NVIDIA Clara Parabricks lançou versões robustas com aceleração aprimorada e a adição de chamadores de variantes. Por exemplo, um projeto de servidor com várias GPUs baseado no servidor Dell EMC DSS 8440 com GPUs NVIDIA® Tesla® T4 parecia promissor para acelerar a análise secundária e oferecer um equilíbrio atrativo entre preço e desempenho.  Este blog relata uma nova arquitetura de referência e os resultados da referência de desempenho da análise secundária do NVIDIA Clara Parabricks em um servidor DSS 8440 com várias GPUs Tesla® T4 com armazenamento Dell EMC Isilon F800.

Arquitetura de referência

A Figura 1 ilustra a arquitetura de referência testada. A arquitetura é modular e fácil de dimensionar. O software NVIDIA Clara Parabricks usa uma ou mais GPUs, tornando o scale-out o mais simples possível. Os componentes básicos de hardware consistem no Dell EMC PowerEdge R640 como um nó de gerenciamento, no servidor DSS 8440 para computação de GPU e no armazenamento Dell EMC Isilon F800.


Figura 1: arquitetura de referência testada


O servidor DSS 8440 4U de 2 soquetes pode acomodar até 10 GPUs NVIDIA® Tesla® V100S Tensor Core líderes do setor, até 10 GPUs NVIDIA® Quadro RTX™ ou até 16 GPUs NVIDIA Tesla T4, fornecendo uma potência incrível. A configuração detalhada do DSS 8440 está listada na Tabela 1.

 
Dell EMC DSS 8440
CPU 2 processadores Xeon® Gold 6248R, 24 núcleos, 3 GHz de
RAM 24 de 64 GB a 2933 MT/s
Sistema operacional Red Hat Enterprise Linux Server release 7,4 (Maipo)
Perfil do sistema BIOS Desempenho otimizado
Processador lógico Disabled
Tecnologia de virtualização Disabled
Aceleradores 16 GPUs NVIDIA® Tesla® T4
Parabricks v3.0.0.05

Dois switches Z9100-ON forneceram a interconexão entre o nó de computação e o cluster de armazenamento Isilon F800. Um switch adicional, o N2248X-ON, é usado para gerenciamento.

Dados de NGS

Os dados para obter um comparativo do tempo de execução das análises secundárias consistiram em três conjuntos de dados de WGS (Whole-Genome Sequencing, Sequenciamento Completo do Genoma) humano, ERR091571, SRR3124837 e ERR194161, representando, respectivamente, a cobertura de amostra de 10x, 30x e 50x. Esses conjuntos de dados estão disponíveis no ENA (European Nucleotide Archive).

Avaliação de desempenho

As melhorias de software reduzem o tempo de execução
A NVIDIA continua incluindo melhorias de software no NVIDIA Clara Parabricks. A Figura 2 mostra a redução do tempo de execução entre duas versões dos Parabricks que executam o pipeline de linha germinal usando o servidor Dell PowerEdge C4140 com ambiente de teste de 4 GPUs V100. A migração da v2.1.0 para a v3.0.0 reduziu o tempo de execução em 42%.


Figura 2: versão mais recente do tempo de execução do pipeline de chamada de variante de linha germinal do Parabricks.

Desempenhos do DSS 8440 com 16 GPUs T4

O tempo de execução de uma análise secundária do NVIDIA Clara Parabricks usando uma única GPU T4 é, aproximadamente, 30% mais lento do que com o uso de uma GPU V100. No entanto, 2 (duas) GPUs T4 fornecem cerca de 10% mais TFLOPS do que 1 (uma) GPU V100 por, aproximadamente, metade do custo. O DSS 8440 oferece até 16 slots PCIe, o que amplia a possibilidade de projetar um servidor baseado na GPU T4 que ofereça desempenho de tempo de execução semelhante ao de um sistema C4140 com quatro GPUs V100, mas por um custo mais baixo.
A análise de linha germinal do Parabricks foi realizada usando um PowerEdge DSS 8440 com 16 GPUs T4. Para cada conjunto de dados de amostra de WGS descrito anteriormente, o tempo de execução foi registrado com o uso de 1, 2, 4, 8 e 16 GPUs T4 por análise secundária. Os resultados são apresentados nas Figuras de 3 a 5. Em geral, o tempo de execução não é dimensionado linearmente à medida que aumenta o número de GPUs por análise. O padrão de dimensionamento é semelhante ao volume de dados por amostra, que aumenta de uma cobertura de 10x para 50x. 
Embora não seja apresentado aqui, uma investigação anterior da Dell EMC mostrou que os resultados do tempo de execução do Parabricks usando oito ou mais GPUs V100 por análise não aumentaram com a mesma eficiência observada com as GPUs T4. Testes adicionais demonstraram que 6 GPUs T4 geraram resultados de tempo de execução quase idênticos a 4 GPUs V100.


Figura 3: comparações de desempenho com WGS de 10x


Figura 4: comparações de desempenho com WGS de 30x


Figura 5: comparações de desempenho com WGS de 50x


Conclusão

Um DSS 8440 com 16 GPUs T4 é capaz de processar trinta genomas humanos 50x por dia. Um throughput de análise diária semelhante usando uma arquitetura de CPU x86 tradicional requer 10 nós de computação do PowerEdge C6420. A arquitetura completa é discutida em uma publicação anterior da Dell.
No entanto, dedicar todas as 16 GPUs T4 para processar uma amostra proporciona poucos benefícios, pois usar 16 GPUs por análise é, na melhor das hipóteses, 10% mais rápido do que usar 8 GPUs. O design do DSS 8440 possibilita várias análises secundárias em paralelo. Ao atribuir oito GPUs T4 por amostra, o throughput da análise diária aumenta para, aproximadamente, 50 genomas por dia. O uso de quatro GPUs por amostra aumenta o throughput da análise para, aproximadamente, 70 genomas por dia. Mais importante ainda, esse resultado diário usando GPUs T4 custa menos da metade do uso de um projeto de GPU V100.
Além da velocidade, a compatibilidade com outras ferramentas de análise é essencial para possibilitar a comparação de resultados. Os resultados da análise de linha germinal do Parabricks são quase idênticos aos da conhecida análise de chamador de haplótipo BWA-GATK em testes anteriores.  Também queríamos comparar os resultados de chamada de variante do Parabricks com outros conjuntos de ferramentas, como samtools/mpileup.  Essas duas ferramentas completamente diferentes alcançam, aproximadamente, 90% de concordância geral para variantes identificadas; a concordância das variações em muitas regiões genômicas bem conhecidas que contêm genes importantes é de mais de 99%.

Article Properties


Affected Product

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640

Last Published Date

03 Dec 2020

Version

1

Article Type

How To