Dell EMC Ready Solution for HPC Life Sciences: Pipeline Tuxedo con CPU Cascade Lake y actualización lustre/ME4

Summary: En este artículo, se aborda la documentación técnica titulada “Dell EMC Ready Solution HPC for Life Sciences: canalización Tuxedo con CPU Cascade Lake y actualización lustre/ME4”.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Nota: Artículo escrito por Kihoon Yoon, del Laboratorio de HPC e Innovación en IA, en diciembre de 2019
El hardware nuevo y la canalización actualizada aumentan en conjunto el rendimiento 3 veces más que la Ready Solution anterior.

Visión general
El análisis de la expresión génica es tan importante como la identificación del polimorfismo de nucleótido único (SNP), la inserción/deleción (indel) o la reestructuración cromosómica. Eventualmente, todos los eventos fisiológicos y bioquímicos dependen de los productos finales de expresión génica, las proteínas. Aunque la mayoría de los mamíferos tienen una capa de control adicional antes de la expresión de la proteína, saber cuántas transcripciones existen en un sistema ayuda a caracterizar el estado bioquímico de una célula. Idealmente, una tecnología nos permite cuantificar la totalidad de las proteínas en una célula, lo que podría suponer un avance significativo en las Ciencias de la Vida; sin embargo, estamos lejos de lograrlo.
Aquí, en este blog, probamos una popular canalización de análisis de datos de secuenciación de ARN conocida como la canalización Tuxedo (1). El paquete de canalización Tuxedo ofrece un conjunto de herramientas para analizar una variedad de datos de secuenciación de ARN, incluido el mapeo de lectura corta, la identificación de uniones de empalme, la detección de transcripciones e isoformas, la expresión diferencial, las visualizaciones y las métricas de control de calidad. Los pasos detallados de la canalización se muestran en la Figura 1. Esta versión actualizada de la canalización Tuxedo incluye el paso Cuffquant en comparación con la versión anterior que se probó en el blog anterior (2).

Figura 1 Canalización Tuxedo actualizada con el paso Cuffquant

Las configuraciones del clúster de prueba se resumen en la Tabla 1.

Tabla 1 Configuración del nodo de cálculo probado
Dell EMC PowerEdge C6420
CPU	2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16GB @2933 MT/s
SO	RHEL 7.6
Interconexión	Intel® Omni-Path
Perfil del sistema del BIOS	Rendimiento optimizado
Procesador lógico	Deshabilitado
Tecnología de virtualización	Deshabilitado
tophat	2.1.1
bowtie2	2.2.5
R	3.6
bioconductor-cummerbund	2.26.0

Los nodos de cálculo probados se conectaron a Dell EMC Ready Solution para el almacenamiento Lustre a través de Intel^® Omni-Path (3). La configuración resumida del almacenamiento se muestra en la Tabla 2.

Tabla 2 Especificaciones de hardware y software de la solución de almacenamiento Lustre
Dell EMC Ready Solution para el almacenamiento Lustre
Cantidad de nodos	1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML) 2 Dell EMC PowerEdge R740 como servidor de metadatos (MDS) 2 Dell EMC PowerEdge R740 como servidor de almacenamiento de objetos (OSS)
Procesadores	Servidor IML: Intel Xeon Gold 5118 doble a 2,3 Ghz Servidores MDS y OSS: Intel Xeon Gold 6136 doble a 3,0 GHz
Memoria	Servidor IML: 12 RDIMM DDR4 de 8 GB y 2666 MT/s Servidores MDS y OSS: 24 RDIMM DDR4 de 16 GiB y 2666 MT/s
Controladoras de almacenamiento externo	2 Dell HBA SAS de 12 Gb/s (en cada MDS) 4 Dell HBA SAS de 12 Gb/s (en cada OSS)
Gabinetes de expansión para almacenamiento de objetos	4 ME4084 con un total de 336 HDD SAS NL de 8 TB a 7200 rpm
Gabinete de expansión para almacenamiento de metadatos	1 ME4024 con 24 SSD SAS de 960 GB. Soporta hasta 4,688B archivos/inodos
Controladoras RAID	RAID dúplex en los gabinetes de expansión ME4084 y ME4024
Sistema operativo	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versión del kernel	3.10.0-862.el7.x86_64
Versión del BIOS	1.4.5
Intel Omni-Path Versión de IFS	10.8.0.0
Versión del sistema de archivos Lustre	2.10.4
Versión del IML	4.0.7.0

Un estudio de rendimiento de la canalización secuenciación de ARN no es trivial porque el flujo de trabajo natural requiere archivos de entrada no idénticos. Se recopilan 185 datos de lectura de extremos emparejados de secuenciación de ARN de un repositorio de datos público. Todos los archivos de datos de lectura contienen alrededor de 25 millones de fragmentos (MF) y tienen longitudes de lectura similares. Las muestras para una prueba se seleccionan en forma aleatoria del grupo de 185 archivos de lectura de extremos emparejados. Aunque estos datos seleccionados al azar no tendrán ningún significado biológico, ciertamente estos datos con alto nivel de ruido pondrán las pruebas en el peor de los casos.
Evaluación de rendimiento
Prueba de dos muestras
En la Figura 2, se representa el tiempo de ejecución de cada paso. La prueba se ejecutó en dos nodos de cálculo con dos muestras que contenían aproximadamente 25 millones de lecturas de datos de secuenciación de ARN. El paso Tophat comienza para cada muestra en un nodo de cálculo en paralelo. Posteriormente, Cufflinks comienza tras la finalización de Tophat. El paso Cuffmerge combina los resultados de las dos ejecuciones de Cufflinks. Se añade el paso Cuffquant para cuantificar las expresiones génicas en cada muestra, y los resultados se examinan más a fondo en los pasos Cuffdiff y Cuffnorm. El último paso, CummeRbund es un paso de análisis estadístico del paquete R de CummeRbund y genera un informe visualizado como se muestra en la Figura 2.

Figura 2 Tiempo de ejecución total para la canalización Tuxedo con dos ejemplos: SRR1608490 y SRR934809. Figura 2 Tiempo de ejecución total para la canalización Tuxedo con dos ejemplos: SRR1608490 y SRR934809.

La Figura 3 muestra los genes expresados diferencialmente a partir de 8 series de muestras (cada muestra consta de 4 duplicados) en rojo con valores p significativamente más bajos (eje Y) en comparación con las otras expresiones génicas ilustradas en negro 1. El eje X son los cambios de pliegue en base logarítmica de 2, y estos cambios de pliegue de cada gen se representan con respecto a los valores p. Un mayor número de muestras mejorará la estimación de la expresión génica. En el gráfico superior derecho se comparan las expresiones génicas de la muestra 2 con las de la muestra 1, mientras que en el gráfico inferior izquierdo se comparan las expresiones génicas de la muestra 1 con las de la muestra 2. Las expresiones génicas en puntos negros no son significativamente diferentes en ambas muestras.

Figura 3 Diagrama de volcán de los resultados de Cuffdiff
Prueba de rendimiento: canalización única con más de dos muestras, duplicados biológicos y técnicos
Los estudios típicos de secuenciación de ARN consisten en múltiples muestras, a veces cientos de muestras diferentes, muestras normales frente a muestras de enfermedades o muestras no tratadas frente a tratadas. Estas muestras suelen tener un alto nivel de ruido debido a sus razones biológicas; por lo tanto, el análisis requiere un vigoroso procedimiento de procesamiento previo de datos.

Probamos varios números de muestras (todos los diferentes datos de secuenciación de ARN seleccionados de 185 conjuntos de datos de lecturas de extremos emparejados) para ver cuántos datos pueden procesar 8 nodos en un clúster PowerEdge C6420. Como se muestra en la Figura 4, los tiempos de ejecución con 2, 4, 8, 16, 32 y 64 muestras crecen exponencialmente cuando aumenta el número de muestras. La cantidad de mil millones de fragmentos por día aumentó casi tres veces con el almacenamiento Cascade Lake 6248/LustreME4 y la canalización actualizada.

Figura 4 Comparaciones de rendimiento con 8 C6420 entre Cascade Lake 6248/LustreME4 y Skylake 6148/H600

El paso Cuffmerge no se ralentiza a medida que crece el número de muestras, mientras que los pasos Cuffdiff y Cuffnorm se ralentizan significativamente. Especialmente, el paso de Cuffdiff se convierte en un cuello de botella para la canalización, ya que el tiempo de ejecución crece exponencialmente (Figura 5). Aunque el tiempo de ejecución de Cuffnorm aumenta exponencialmente como Cuffdiff, se puede ignorar ya que el tiempo de ejecución de Cuffnorm está limitado por el tiempo de ejecución de Cuffdiff. La adición del paso Cuffquant mejoró significativamente el tiempo de ejecución de Cuffdiff. Se redujo en 30 horas el tiempo de ejecución del paso Cuffdiff y Cuffnorm se completó 20 horas más rápido con el paso Cuffquant. Aunque el aumento del rendimiento de Cuffnorm no es visible, ya que Cuffdiff y Cuffnorm comienzan al mismo tiempo.

Figura 5 Incremento del tiempo de ejecución en Cuffdiff y Cuffnorm
Figura 5 Incremento del tiempo de ejecución en Cuffdiff y Cuffnorm
Conclusión
Los resultados de las pruebas de rendimiento muestran que los 8 nodos de PowerEdge C6420 con el almacenamiento Lustre pueden procesar aproximadamente 2700 millones de fragmentos de 64 muestras con aprox. 50 millones de lecturas emparejadas cada una (25 MF) a través de la canalización Tuxedo que se ilustra en la Figura 1. Dado que la canalización Tuxedo es relativamente más rápida que otras canalizaciones populares, es difícil generalizar o utilizar estos resultados para dimensionar un sistema de HPC con precisión. Sin embargo, los resultados pueden ayudar a hacer una estimación aproximada del tamaño del sistema de HPC.

Recursos
1. Expresión génica diferencial de secuenciación de ARN: tutorial básico. [En línea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Parámetro de referencia de la canalización secuenciación de ARN con Dell EMC Ready Bundle HPC for Life Sciences. [En línea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution para HPC Lustre Storage. [Enlace caído desde 07/2024]

Nota: estos se seleccionan al azar de un grupo de muestras sin ninguna asociación significativa entre ellos.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Article Number: 000124142

Article Type: How To

Last Modified: 25 Jul 2024

Version: 3

Check if your device is covered by Support Services.

Dell EMC Ready Solution for HPC Life Sciences: Pipeline Tuxedo con CPU Cascade Lake y actualización lustre/ME4

Summary: En este artículo, se aborda la documentación técnica titulada “Dell EMC Ready Solution HPC for Life Sciences: canalización Tuxedo con CPU Cascade Lake y actualización lustre/ME4”.

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Dell EMC Ready Solution for HPC Life Sciences: Pipeline Tuxedo con CPU Cascade Lake y actualización lustre/ME4

Summary: En este artículo, se aborda la documentación técnica titulada “Dell EMC Ready Solution HPC for Life Sciences: canalización Tuxedo con CPU Cascade Lake y actualización lustre/ME4”.

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services