Nota: Artículo escrito por Kihoon Yoon, del Laboratorio de HPC e Innovación en IA, en diciembre de 2019
El hardware nuevo y la canalización actualizada aumentan en conjunto el rendimiento 3 veces más que la Ready Solution anterior.
Visión general
El análisis de la expresión génica es tan importante como la identificación del polimorfismo de nucleótido único (SNP), la inserción/deleción (indel) o la reestructuración cromosómica. Eventualmente, todos los eventos fisiológicos y bioquímicos dependen de los productos finales de expresión génica, las proteínas. Aunque la mayoría de los mamíferos tienen una capa de control adicional antes de la expresión de la proteína, saber cuántas transcripciones existen en un sistema ayuda a caracterizar el estado bioquímico de una célula. Idealmente, una tecnología nos permite cuantificar la totalidad de las proteínas en una célula, lo que podría suponer un avance significativo en las Ciencias de la Vida; sin embargo, estamos lejos de lograrlo.
Aquí, en este blog, probamos una popular canalización de análisis de datos de secuenciación de ARN conocida como la canalización Tuxedo (1). El paquete de canalización Tuxedo ofrece un conjunto de herramientas para analizar una variedad de datos de secuenciación de ARN, incluido el mapeo de lectura corta, la identificación de uniones de empalme, la detección de transcripciones e isoformas, la expresión diferencial, las visualizaciones y las métricas de control de calidad. Los pasos detallados de la canalización se muestran en la Figura 1. Esta versión actualizada de la canalización Tuxedo incluye el paso Cuffquant en comparación con la versión anterior que se probó en el blog anterior (2).
Figura 1 Canalización Tuxedo actualizada con el paso Cuffquant
Las configuraciones del clúster de prueba se resumen en la Tabla 1.
Tabla 1 Configuración del nodo de cálculo probado |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
SO |
RHEL 7.6 |
Interconexión |
Intel® Omni-Path |
Perfil del sistema del BIOS |
Rendimiento optimizado |
Procesador lógico |
Deshabilitado |
Tecnología de virtualización |
Deshabilitado |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
Los nodos de cálculo probados se conectaron a Dell EMC Ready Solution para el almacenamiento Lustre a través de Intel® Omni-Path (3). La configuración resumida del almacenamiento se muestra en la Tabla 2.
Tabla 2 Especificaciones de hardware y software de la solución de almacenamiento Lustre |
|
Dell EMC Ready Solution para el almacenamiento Lustre |
|
Cantidad de nodos |
1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML) |
Procesadores |
Servidor IML: Intel Xeon Gold 5118 doble a 2,3 Ghz |
Memoria |
Servidor IML: 12 RDIMM DDR4 de 8 GB y 2666 MT/s |
Controladoras de |
2 Dell HBA SAS de 12 Gb/s (en cada MDS) |
Gabinetes de expansión |
4 ME4084 con un total de 336 HDD SAS NL de 8 TB a 7200 rpm |
Gabinete de expansión |
1 ME4024 con 24 SSD SAS de 960 GB. Soporta hasta 4,688B archivos/inodos |
Controladoras RAID |
RAID dúplex en los gabinetes de expansión ME4084 y ME4024 |
Sistema operativo |
CentOS 7.5 x86_64 |
Versión del kernel |
3.10.0-862.el7.x86_64 |
Versión del BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Versión del sistema |
2.10.4 |
Versión del IML |
4.0.7.0 |
Un estudio de rendimiento de la canalización secuenciación de ARN no es trivial porque el flujo de trabajo natural requiere archivos de entrada no idénticos. Se recopilan 185 datos de lectura de extremos emparejados de secuenciación de ARN de un repositorio de datos público. Todos los archivos de datos de lectura contienen alrededor de 25 millones de fragmentos (MF) y tienen longitudes de lectura similares. Las muestras para una prueba se seleccionan en forma aleatoria del grupo de 185 archivos de lectura de extremos emparejados. Aunque estos datos seleccionados al azar no tendrán ningún significado biológico, ciertamente estos datos con alto nivel de ruido pondrán las pruebas en el peor de los casos.
Evaluación de rendimiento
Prueba de dos muestras
En la Figura 2, se representa el tiempo de ejecución de cada paso. La prueba se ejecutó en dos nodos de cálculo con dos muestras que contenían aproximadamente 25 millones de lecturas de datos de secuenciación de ARN. El paso Tophat comienza para cada muestra en un nodo de cálculo en paralelo. Posteriormente, Cufflinks comienza tras la finalización de Tophat. El paso Cuffmerge combina los resultados de las dos ejecuciones de Cufflinks. Se añade el paso Cuffquant para cuantificar las expresiones génicas en cada muestra, y los resultados se examinan más a fondo en los pasos Cuffdiff y Cuffnorm. El último paso, CummeRbund es un paso de análisis estadístico del paquete R de CummeRbund y genera un informe visualizado como se muestra en la Figura 2.Figura 2 Tiempo de ejecución total para la canalización Tuxedo con dos ejemplos: SRR1608490 y SRR934809.
La Figura 3 muestra los genes expresados diferencialmente a partir de 8 series de muestras (cada muestra consta de 4 duplicados) en rojo con valores p significativamente más bajos (eje Y) en comparación con las otras expresiones génicas ilustradas en negro1. El eje X son los cambios de pliegue en base logarítmica de 2, y estos cambios de pliegue de cada gen se representan con respecto a los valores p. Un mayor número de muestras mejorará la estimación de la expresión génica. En el gráfico superior derecho se comparan las expresiones génicas de la muestra 2 con las de la muestra 1, mientras que en el gráfico inferior izquierdo se comparan las expresiones génicas de la muestra 1 con las de la muestra 2. Las expresiones génicas en puntos negros no son significativamente diferentes en ambas muestras. Figura 3 Diagrama de volcán de los resultados de Cuffdiff
Prueba de rendimiento: canalización única con más de dos muestras, duplicados biológicos y técnicos
Los estudios típicos de secuenciación de ARN consisten en múltiples muestras, a veces cientos de muestras diferentes, muestras normales frente a muestras de enfermedades o muestras no tratadas frente a tratadas. Estas muestras suelen tener un alto nivel de ruido debido a sus razones biológicas; por lo tanto, el análisis requiere un vigoroso procedimiento de procesamiento previo de datos.
Probamos varios números de muestras (todos los diferentes datos de secuenciación de ARN seleccionados de 185 conjuntos de datos de lecturas de extremos emparejados) para ver cuántos datos pueden procesar 8 nodos en un clúster PowerEdge C6420. Como se muestra en la Figura 4, los tiempos de ejecución con 2, 4, 8, 16, 32 y 64 muestras crecen exponencialmente cuando aumenta el número de muestras. La cantidad de mil millones de fragmentos por día aumentó casi tres veces con el almacenamiento Cascade Lake 6248/LustreME4 y la canalización actualizada.Figura 4 Comparaciones de rendimiento con 8 C6420 entre Cascade Lake 6248/LustreME4 y Skylake 6148/H600
El paso Cuffmerge no se ralentiza a medida que crece el número de muestras, mientras que los pasos Cuffdiff y Cuffnorm se ralentizan significativamente. Especialmente, el paso de Cuffdiff se convierte en un cuello de botella para la canalización, ya que el tiempo de ejecución crece exponencialmente (Figura 5). Aunque el tiempo de ejecución de Cuffnorm aumenta exponencialmente como Cuffdiff, se puede ignorar ya que el tiempo de ejecución de Cuffnorm está limitado por el tiempo de ejecución de Cuffdiff. La adición del paso Cuffquant mejoró significativamente el tiempo de ejecución de Cuffdiff. Se redujo en 30 horas el tiempo de ejecución del paso Cuffdiff y Cuffnorm se completó 20 horas más rápido con el paso Cuffquant. Aunque el aumento del rendimiento de Cuffnorm no es visible, ya que Cuffdiff y Cuffnorm comienzan al mismo tiempo.
Figura 5 Incremento del tiempo de ejecución en Cuffdiff y Cuffnorm
Conclusión
Los resultados de las pruebas de rendimiento muestran que los 8 nodos de PowerEdge C6420 con el almacenamiento Lustre pueden procesar aproximadamente 2700 millones de fragmentos de 64 muestras con aprox. 50 millones de lecturas emparejadas cada una (25 MF) a través de la canalización Tuxedo que se ilustra en la Figura 1. Dado que la canalización Tuxedo es relativamente más rápida que otras canalizaciones populares, es difícil generalizar o utilizar estos resultados para dimensionar un sistema de HPC con precisión. Sin embargo, los resultados pueden ayudar a hacer una estimación aproximada del tamaño del sistema de HPC.
Recursos
1. Expresión génica diferencial de secuenciación de ARN: tutorial básico. [En línea] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Parámetro de referencia de la canalización secuenciación de ARN con Dell EMC Ready Bundle HPC for Life Sciences. [En línea] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution para HPC Lustre Storage. [Enlace caído desde 07/2024]
Nota: estos se seleccionan al azar de un grupo de muestras sin ninguna asociación significativa entre ellos.