Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution for HPC Life Sciences: Pipeline Tuxedo con CPU Cascade Lake y actualización lustre/ME4

Summary: En este artículo, se aborda la documentación técnica titulada "Dell EMC Ready Solution para HPC Life Sciences: Tuxedo Pipeline con CPU Cascade Lake y actualización de Lustre/ME4".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Nota: Artículo escrito por Kihoon Yoon, del Laboratorio de innovación en HPC e IA, en diciembre de 2019
El hardware nuevo y el pipeline actualizado juntos aumentan el rendimiento 3 veces más que la Ready Solutions anterior.

Visión general
El análisis de la expresión génica es tan importante como la identificación del polimorfismo de nucleótido único (SNP), la inserción/deleción (indel) o la reestructuración cromosómica. Eventualmente, todos los eventos fisiológicos y bioquímicos dependen de los productos finales de expresión génica, las proteínas. Aunque la mayoría de los mamíferos tienen una capa de control adicional antes de la expresión de la proteína, saber cuántas transcripciones existen en un sistema ayuda a caracterizar el estado bioquímico de una célula. Idealmente, una tecnología nos permite cuantificar las proteínas completas en una célula que podría sobresalir significativamente en el progreso de las Ciencias de la Vida; Sin embargo, estamos lejos de lograrlo. 
Aquí, en este blog, probamos una popular canalización de análisis de datos de RNA-Seq conocida como la canalización Tuxedo (1). La suite de oleoductos TuxedoEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies. ofrece un conjunto de herramientas para analizar una variedad de datos de RNA-Seq, incluido el mapeo de lectura corta, la identificación de uniones de empalme, la detección de transcripciones e isoformas, la expresión diferencial, las visualizaciones y las métricas de control de calidad. Los pasos detallados de la canalización se muestran en la figura 1. Esta versión actualizada del pipeline de Tuxedo incluye el paso Cuffquant en comparación con la versión anterior probada en el blog anterior (2).

Figura 1 Se actualizó Tuxedo Pipeline con Cuffquant StepFigura 1 Se actualizó Tuxedo Pipeline con el paso

CuffquantLas configuraciones del clúster de prueba se resumen en la Tabla 1.

Tabla 1 Configuración de nodos de computación probada

Dell EMC PowerEdge C6420

CPU

2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

Sistema operativo

RHEL 7.6

Interconexión

Intel® Omni-Path

Perfil del sistema del BIOS

Rendimiento optimizado

Procesador lógico

Deshabilitado

Tecnología de virtualización

Deshabilitado

Sombrero de copa

2.1.1

pajarita2

2.2.5

R

3.6

fajín bioconductor

2.26.0


Los nodos de computación probados se conectaron a Dell EMC Ready Solution para Lustre Storage a través de Intel® Omni-Path (3). La configuración resumida del almacenamiento se muestra en la tabla 2.

Tabla 2 Especificaciones de hardware y software de la solución de almacenamiento Lustre

Dell EMC Ready Solution para Lustre Storage

Cantidad de nodos

1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML)
2 Dell EMC PowerEdge R740 como servidor de metadatos (MDS)
2 Dell EMC PowerEdge R740 como servidor de almacenamiento de objetos (OSS)

Procesadores

Servidor IML: Intel Xeon Gold 5118 doble @ 2.3 GHz
Servidores MDS y OSS: Intel Xeon Gold 6136 doble @ 3.00 GHz

Memoria

Servidor IML: 12 RDIMM DDR4 de 8 GB y 2666 MT/s
Servidores MDS y OSS: RDIMM DDR4 de 24 x 16 GiB y 2666 MT/s

Almacenamiento
externoControladores

2 HBA SAS Dell de 12 Gb/s (en cada MDS)
4 HBA SAS Dell de 12 Gb/s (en cada OSS)

Almacenamiento de
objetosRecintos

4 ME4084 con un total de 336 HDD SAS NL de 8 TB a 7200 r/min

Almacenamiento de
metadatosrecinto

1 ME4024 con 24 SSD SAS de 960 GB. Soporta hasta 4.688B archivos/inodos

Controladoras RAID

RAID dúplex en los gabinetes ME4084 y ME4024

Sistema operativo

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Versión del kernel

3.10.0-862.el7.x86_64

Versión del BIOS

1.4.5

Intel Omni-Path
Versión de IFS

10.8.0.0

Sistema
de archivos LustreVersión

2.10.4

Versión de IML

4.0.7.0


Un estudio de rendimiento de la canalización RNA-Seq no es trivial porque el flujo de trabajo de naturaleza requiere archivos de entrada no idénticos. Se recopilan 185 datos de lectura de extremos emparejados de RNA-Seq de un repositorioEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies. de datos público. Todos los archivos de datos leídos contienen alrededor de 25 millones de fragmentos (MF) y tienen longitudes de lectura similares. Las muestras de una prueba seleccionadas aleatoriamente del grupo de 185 archivos de lectura de extremos emparejados. Aunque estos datos seleccionados al azar no tendrán ningún significado biológico, ciertamente estos datos con alto nivel de ruido pondrán las pruebas en el peor de los casos.
Evaluación
del desempeñoPrueba
de dos muestrasEn la figura 2, se representa el tiempo de ejecución de cada paso. La prueba se ejecutó en dos nodos de computación con dos muestras que contenían aproximadamente 25 millones de datos de secuenciación de ARN de lectura. El paso Tophat comienza para cada muestra en un nodo de procesamiento en paralelo. Posteriormente, Cufflinks comienza con la finalización de Tophat. El paso Cuffmerge combina los resultados de las dos tiradas de Cufflinks. Se añade el paso Cuffquant para cuantificar las expresiones génicas en cada muestra, y los resultados se examinan más a fondo en los pasos Cuffdiff y Cuffnorm. El último paso, CummeRbund es un paso de análisis estadístico del paquete R de CummeRbund y genera un informe visualizado como se muestra en la Figura 2.

Figura 2 Tiempo de ejecución total para la canalización de Tuxedo con dos ejemplos: SRR1608490 y SRR934809.Figura 2 Tiempo de ejecución total para la canalización de Tuxedo con dos ejemplos: SRR1608490 y SRR934809.

La Figura 3 muestra los genes expresados diferencialmente a partir de 8 series de muestras (cada muestra consta de 4 duplicados) en rojo con valores p significativamente más bajos (eje Y) en comparación con otras expresiones génicas ilustradas en negro1. El eje X son los cambios de pliegue en base logarítmica de 2, y estos cambios de pliegue de cada gen se representan con respecto a los valores de p. Más muestras aportarán una mejor estimación de la expresión génica. La gráfica superior derecha son las expresiones génicas de la muestra 2 en comparación con la muestra 1, mientras que la gráfica inferior izquierda son las expresiones génicas de la muestra 1 en comparación con la muestra 2. Las expresiones génicas en los puntos negros no son significativamente diferentes en ambas muestras.


Figura 3 Gráfico volcánico de los resultados de CuffdiffFigura 3 Gráfico volcánico de los resultados
de CuffdiffPrueba de rendimiento: tubería única con más de dos muestras, duplicados biológicos
y técnicosLos estudios típicos de secuenciación de ARN consisten en múltiples muestras, a veces cientos de muestras diferentes, normales frente a la enfermedad o muestras no tratadas frente a tratadas. Estas muestras suelen tener un alto nivel de ruido debido a sus razones biológicas; Por lo tanto, el análisis requiere un vigoroso procedimiento de preprocesamiento de datos.
 
Probamos varios números de muestras (todos los diferentes datos de secuenciación de ARN seleccionados de 185 conjuntos de datos de lecturas de extremos emparejados) para ver cuántos datos pueden procesar 8 nodos en un clúster PowerEdge C6420. Como se muestra en la Figura 4, los tiempos de ejecución con 2, 4, 8, 16, 32 y 64 muestras crecen exponencialmente cuando aumenta el número de muestras. La cantidad de mil millones de fragmentos por día aumentó casi tres veces con el almacenamiento Cascade Lake 6248/LustreME4 y la canalización actualizada.

Figura 4 Comparaciones de rendimiento con 8 C6420 entre Cascade Lake 6248/LustreME4 y Skylake 6148/H600Figura 4 Comparaciones de rendimiento con 8x C6420 entre Cascade Lake 6248/LustreME4 y Skylake 6148/H600

El paso Cuffmerge no se ralentiza a medida que crece el número de muestras, mientras que los pasos Cuffdiff y Cuffnorm se ralentizan significativamente. Especialmente, el paso de Cuffdiff se convierte en un cuello de botella para la tubería, ya que el tiempo de ejecución crece exponencialmente (Figura 5). Aunque el tiempo de ejecución de Cuffnorm aumenta exponencialmente como Cuffdiff, es ignorable ya que el tiempo de ejecución de Cuffnorm está limitado por el tiempo de ejecución de Cuffdiff.  La adición del paso Cuffquant mejoró significativamente el tiempo de ejecución de Cuffdiff. 30 horas de reducción del tiempo de ejecución en el paso Cuffdiff, y Cuffnorm se completó 20 horas más rápido con el paso Cuffquant. Aunque la ganancia de rendimiento de Cuffnorm no es visible, ya que Cuffdiff y Cuffnorm comienzan al mismo tiempo.


Figura 5 Incremento de tiempo de ejecución en Cuffdiff y Cuffnorm
Figura 5 Incremento de tiempo de ejecución en Cuffdiff y Cuffnorm
Conclusión
Los resultados de las pruebas de rendimiento muestran que los PowerEdge C6420 de 8 nodos con el almacenamiento Lustre pueden procesar aproximadamente 2700 millones de fragmentos de 64 muestras con ~50 millones de lecturas emparejadas cada una (25 MF) a través del pipeline Tuxedo que se ilustra en la Figura 1. Dado que el pipeline de Tuxedo es relativamente más rápido que otros pipelines populares, es difícil generalizar o utilizar estos resultados para dimensionar un sistema de HPC con precisión. Sin embargo, los resultados pueden ayudar a hacer una estimación aproximada del tamaño del sistema de HPC.
 
Recursos
1. Expresión génica diferencial de ARN-Seq: Tutorial Básico. [En línea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
número arábigo. Parámetro de referencia del pipeline RNA-Seq con Dell EMC Ready Bundle para ciencias biológicas de HPC. [En línea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
3. Solución lista para Dell EMC para HPC Lustre Storage. [Enlace muerto a fecha 07/2024]

Nota: estos se seleccionan al azar de un grupo de muestras sin ninguna asociación significativa entre ellos.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.