Nota: Artículo escrito por Kihoon Yoon, del Laboratorio de innovación en HPC e IA, en diciembre de 2019
El hardware nuevo y el pipeline actualizado juntos aumentan el rendimiento 3 veces más que la Ready Solutions anterior.
Visión general
El análisis de la expresión génica es tan importante como la identificación del polimorfismo de nucleótido único (SNP), la inserción/deleción (indel) o la reestructuración cromosómica. Eventualmente, todos los eventos fisiológicos y bioquímicos dependen de los productos finales de expresión génica, las proteínas. Aunque la mayoría de los mamíferos tienen una capa de control adicional antes de la expresión de la proteína, saber cuántas transcripciones existen en un sistema ayuda a caracterizar el estado bioquímico de una célula. Idealmente, una tecnología nos permite cuantificar las proteínas completas en una célula que podría sobresalir significativamente en el progreso de las Ciencias de la Vida; Sin embargo, estamos lejos de lograrlo.
Aquí, en este blog, probamos una popular canalización de análisis de datos de RNA-Seq conocida como la canalización Tuxedo (1). La suite de oleoductos Tuxedo ofrece un conjunto de herramientas para analizar una variedad de datos de RNA-Seq, incluido el mapeo de lectura corta, la identificación de uniones de empalme, la detección de transcripciones e isoformas, la expresión diferencial, las visualizaciones y las métricas de control de calidad. Los pasos detallados de la canalización se muestran en la figura 1. Esta versión actualizada del pipeline de Tuxedo incluye el paso Cuffquant en comparación con la versión anterior probada en el blog anterior (2).
Figura 1 Se actualizó Tuxedo Pipeline con el paso
CuffquantLas configuraciones del clúster de prueba se resumen en la Tabla 1.
Tabla 1 Configuración de nodos de computación probada |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
Sistema operativo |
RHEL 7.6 |
Interconexión |
Intel® Omni-Path |
Perfil del sistema del BIOS |
Rendimiento optimizado |
Procesador lógico |
Deshabilitado |
Tecnología de virtualización |
Deshabilitado |
Sombrero de copa |
2.1.1 |
pajarita2 |
2.2.5 |
R |
3.6 |
fajín bioconductor |
2.26.0 |
Los nodos de computación probados se conectaron a Dell EMC Ready Solution para Lustre Storage a través de Intel® Omni-Path (3). La configuración resumida del almacenamiento se muestra en la tabla 2.
Tabla 2 Especificaciones de hardware y software de la solución de almacenamiento Lustre |
|
Dell EMC Ready Solution para Lustre Storage |
|
Cantidad de nodos |
1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML) |
Procesadores |
Servidor IML: Intel Xeon Gold 5118 doble @ 2.3 GHz |
Memoria |
Servidor IML: 12 RDIMM DDR4 de 8 GB y 2666 MT/s |
Almacenamiento |
2 HBA SAS Dell de 12 Gb/s (en cada MDS) |
Almacenamiento de |
4 ME4084 con un total de 336 HDD SAS NL de 8 TB a 7200 r/min |
Almacenamiento de |
1 ME4024 con 24 SSD SAS de 960 GB. Soporta hasta 4.688B archivos/inodos |
Controladoras RAID |
RAID dúplex en los gabinetes ME4084 y ME4024 |
Sistema operativo |
CentOS 7.5 x86_64 |
Versión del kernel |
3.10.0-862.el7.x86_64 |
Versión del BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Sistema |
2.10.4 |
Versión de IML |
4.0.7.0 |
Un estudio de rendimiento de la canalización RNA-Seq no es trivial porque el flujo de trabajo de naturaleza requiere archivos de entrada no idénticos. Se recopilan 185 datos de lectura de extremos emparejados de RNA-Seq de un repositorio de datos público. Todos los archivos de datos leídos contienen alrededor de 25 millones de fragmentos (MF) y tienen longitudes de lectura similares. Las muestras de una prueba seleccionadas aleatoriamente del grupo de 185 archivos de lectura de extremos emparejados. Aunque estos datos seleccionados al azar no tendrán ningún significado biológico, ciertamente estos datos con alto nivel de ruido pondrán las pruebas en el peor de los casos.
Evaluación
del desempeñoPrueba
de dos muestrasEn la figura 2, se representa el tiempo de ejecución de cada paso. La prueba se ejecutó en dos nodos de computación con dos muestras que contenían aproximadamente 25 millones de datos de secuenciación de ARN de lectura. El paso Tophat comienza para cada muestra en un nodo de procesamiento en paralelo. Posteriormente, Cufflinks comienza con la finalización de Tophat. El paso Cuffmerge combina los resultados de las dos tiradas de Cufflinks. Se añade el paso Cuffquant para cuantificar las expresiones génicas en cada muestra, y los resultados se examinan más a fondo en los pasos Cuffdiff y Cuffnorm. El último paso, CummeRbund es un paso de análisis estadístico del paquete R de CummeRbund y genera un informe visualizado como se muestra en la Figura 2.
Figura 2 Tiempo de ejecución total para la canalización de Tuxedo con dos ejemplos: SRR1608490 y SRR934809.
La Figura 3 muestra los genes expresados diferencialmente a partir de 8 series de muestras (cada muestra consta de 4 duplicados) en rojo con valores p significativamente más bajos (eje Y) en comparación con otras expresiones génicas ilustradas en negro1. El eje X son los cambios de pliegue en base logarítmica de 2, y estos cambios de pliegue de cada gen se representan con respecto a los valores de p. Más muestras aportarán una mejor estimación de la expresión génica. La gráfica superior derecha son las expresiones génicas de la muestra 2 en comparación con la muestra 1, mientras que la gráfica inferior izquierda son las expresiones génicas de la muestra 1 en comparación con la muestra 2. Las expresiones génicas en los puntos negros no son significativamente diferentes en ambas muestras.
Figura 3 Gráfico volcánico de los resultados
de CuffdiffPrueba de rendimiento: tubería única con más de dos muestras, duplicados biológicos
y técnicosLos estudios típicos de secuenciación de ARN consisten en múltiples muestras, a veces cientos de muestras diferentes, normales frente a la enfermedad o muestras no tratadas frente a tratadas. Estas muestras suelen tener un alto nivel de ruido debido a sus razones biológicas; Por lo tanto, el análisis requiere un vigoroso procedimiento de preprocesamiento de datos.
Probamos varios números de muestras (todos los diferentes datos de secuenciación de ARN seleccionados de 185 conjuntos de datos de lecturas de extremos emparejados) para ver cuántos datos pueden procesar 8 nodos en un clúster PowerEdge C6420. Como se muestra en la Figura 4, los tiempos de ejecución con 2, 4, 8, 16, 32 y 64 muestras crecen exponencialmente cuando aumenta el número de muestras. La cantidad de mil millones de fragmentos por día aumentó casi tres veces con el almacenamiento Cascade Lake 6248/LustreME4 y la canalización actualizada.
Figura 4 Comparaciones de rendimiento con 8x C6420 entre Cascade Lake 6248/LustreME4 y Skylake 6148/H600
El paso Cuffmerge no se ralentiza a medida que crece el número de muestras, mientras que los pasos Cuffdiff y Cuffnorm se ralentizan significativamente. Especialmente, el paso de Cuffdiff se convierte en un cuello de botella para la tubería, ya que el tiempo de ejecución crece exponencialmente (Figura 5). Aunque el tiempo de ejecución de Cuffnorm aumenta exponencialmente como Cuffdiff, es ignorable ya que el tiempo de ejecución de Cuffnorm está limitado por el tiempo de ejecución de Cuffdiff. La adición del paso Cuffquant mejoró significativamente el tiempo de ejecución de Cuffdiff. 30 horas de reducción del tiempo de ejecución en el paso Cuffdiff, y Cuffnorm se completó 20 horas más rápido con el paso Cuffquant. Aunque la ganancia de rendimiento de Cuffnorm no es visible, ya que Cuffdiff y Cuffnorm comienzan al mismo tiempo.
Figura 5 Incremento de tiempo de ejecución en Cuffdiff y Cuffnorm
Conclusión
Los resultados de las pruebas de rendimiento muestran que los PowerEdge C6420 de 8 nodos con el almacenamiento Lustre pueden procesar aproximadamente 2700 millones de fragmentos de 64 muestras con ~50 millones de lecturas emparejadas cada una (25 MF) a través del pipeline Tuxedo que se ilustra en la Figura 1. Dado que el pipeline de Tuxedo es relativamente más rápido que otros pipelines populares, es difícil generalizar o utilizar estos resultados para dimensionar un sistema de HPC con precisión. Sin embargo, los resultados pueden ayudar a hacer una estimación aproximada del tamaño del sistema de HPC.
Recursos
1. Expresión génica diferencial de ARN-Seq: Tutorial Básico. [En línea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
número arábigo. Parámetro de referencia del pipeline RNA-Seq con Dell EMC Ready Bundle para ciencias biológicas de HPC. [En línea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Solución lista para Dell EMC para HPC Lustre Storage. [Enlace muerto a fecha 07/2024]
Nota: estos se seleccionan al azar de un grupo de muestras sin ninguna asociación significativa entre ellos.