Desarrollo de algoritmos bioinformáticos para el manejo  automático de hallazgos  secundarios en datos genómicos

Urrutia Lafuente, Edurne

Palabra/s clave: Secuenciación de nueva generación; Hallazgos secundarios; Medicina genómica; Algoritmos bioinformáticos; Python

Titulación: Máster Universitario en Bioinformática

Fecha de defensa: 2023-11

Tipo de contenido: TFM

URI: https://hdl.handle.net/20.500.12880/7521

Resumen:

La secuenciación de nueva generación (NGS) es una herramienta fundamental en el estudio de enfermedades genéticas. Sus implicaciones van más allá de la enfermedad primaria, ya que permiten la identificación de hallazgos secundarios (de riesgo personal, reproductivo y farmacogenético), que pueden tener un impacto relevante en el manejo clínico del paciente. Por tanto, el desarrollo de algoritmos bioinformáticos dirigidos a su manejo es un paso importante hacia la implementación de la genómica en la práctica médica. Sin embargo, hasta ahora no se han descrito herramientas para el manejo específico de hallazgos secundarios. Objetivos: El objetivo de este Trabajo Final de Máster consiste en el desarrollo de una herramienta bioinformática destinada al manejo automático de hallazgos secundarios en datos genómicos. Material y métodos: La herramienta, desarrollada en Python y operable desde la línea de comandos, procesa archivos de variantes genómicas en formato Variant Calling Format (VCF) y permite seleccionar las categorías de hallazgos secundarios mencionadas. Además, se pueden configurar parámetros como el ensamblaje de referencia, el modo de ejecución, el nivel de evidencia para las interpretaciones y un archivo de términos de la ontología del fenotipo humano (HPO). La herramienta se apoya en InterVar y la base de datos ClinVar, y el flujo de trabajo incluye la preparación de la herramienta, la normalización del archivo VCF, la extracción de variantes genómicas en genes específicos de cada categoría mediante la intersección con archivos Browser Extensible Data (BED) y la ejecución de los módulos propios de cada categoría para la anotación e interpretación de variantes patogénicas o probablemente patogénicas. El último paso consiste en la generación de informes en formato Excel, separando los hallazgos por categorías. Además, la herramienta se validó utilizando datos genómicos con hallazgos secundarios previamente identificados en el proyecto NAGEN1000. Resultados: La validación de la herramienta demostró su capacidad para identificar hallazgos secundarios en datos genómicos del proyecto NAGEN1000, respaldando su eficacia en las tres categorías de hallazgos secundarios. Conclusiones: El desarrollo de esta herramienta representa un avance en la medicina genómica y la atención médica personalizada. Las limitaciones actuales identificadas se completan con líneas de mejora futuras, como la inclusión en un docker.