Resumen
La familia Coronaviridae ha captado la atención mundial debido a la pandemia provocada
por el SARS-CoV-2, pero su relevancia científica abarca mucho más que este evento. Aunque
la mayoría de los virus de esta familia utilizan animales como huéspedes, especialmente
murciélagos, su diversidad y capacidad para adaptarse a nuevos hospedadores representan un
desafío para la biología molecular y la salud pública. Este trabajo tiene como objetivo
proponer un modelo computacional que clasifique proteínas de la familia Coronaviridae en
géneros con base en patrones evolutivos y estructurales, empleando métricas integradoras de
similitud y técnicas avanzadas de optimización combinatoria.
El problema se aborda como una tarea multiobjetivo y se utiliza un algoritmo genético (AG)
para clasificar las proteínas, seleccionando las estructuras tridimensionales más
representativas generadas por AlphaFold. Durante el desarrollo del proyecto, fue necesario
construir flujos de trabajo automatizados para la adquisición y el procesamiento de datos
estructurales, lo que mejoró la eficiencia de las metodologías aplicadas. Las secuencias y
modelos tridimensionales de 46 proteínas Spike fueron obtenidos de repositorios públicos
reconocidos, garantizando la calidad y confiabilidad de la información utilizada.
En el primer capítulo se establece el marco teórico, que abarca conceptos clave como
optimización, metaheurísticas y aspectos fundamentales de la biología de proteínas. El
segundo capítulo describe detalladamente el proceso de obtención, normalización y
preparación de los datos, incluyendo el desarrollo de herramientas computacionales
específicas para calcular métricas de similitud estructural. En el tercer capítulo se presenta el
modelo propuesto, destacando la formulación del problema, los fundamentos del algoritmo
genético y las funciones objetivo diseñadas para la clusterización de proteínas.
La sección experimental documenta la implementación del modelo, mostrando resultados
que incluyen clasificaciones coherentes y agrupaciones evolutivamente relevantes. Los
experimentos realizados evidenciaron el potencial del AG para minimizar distancias
estructurales dentro de los géneros y maximizar distancias entre ellos, aunque también se
destacaron los desafíos computacionales derivados del gran número de comparaciones
requeridas.
4
Finalmente, los resultados obtenidos fueron validados mediante la construcción de un árbol
filogenético utilizando el método Neighbor-Joining (NJ) en el software MEGA. Este análisis
reveló una alta concordancia entre las agrupaciones generadas por el AG y las relaciones
filogenéticas tradicionales, destacando las fortalezas del enfoque propuesto. Este trabajo
contribuye a la comprensión de patrones estructurales y evolutivos en proteínas de la familia
Coronaviridae, y sienta las bases para futuras investigaciones que integren biología
computacional, optimización y proteómica en el estudio de organismos virales.
Abstract
The Coronaviridae family has garnered global attention due to the SARS-CoV-2 pandemic,
but its scientific relevance extends far beyond this event. While most viruses in this family
use animals, particularly bats, as hosts, their diversity and ability to adapt to new hosts present
significant challenges to molecular biology and public health. This study proposes a
computational model to classify proteins from the Coronaviridae family into genera based
on evolutionary and structural patterns, employing integrative similarity metrics and
advanced combinatorial optimization techniques.
The problem is addressed as a multi-objective task, utilizing a genetic algorithm (GA) to
classify proteins and select the most representative three-dimensional structures predicted by
AlphaFold. Automated workflows were developed to acquire and process structural data,
enhancing the efficiency of applied methodologies. The sequences and 3D models of 46
Spike proteins were obtained from reputable public repositories, ensuring the quality and
reliability of the data.
The theoretical framework covers key concepts such as optimization, metaheuristics, and
fundamental aspects of protein biology. The data preparation process included obtaining,
normalizing, and structuring data while developing computational tools to calculate
structural similarity metrics. The proposed model focuses on problem formulation, GA
foundations, and objective functions tailored for protein clustering.
Experimental results demonstrate the model’s ability to produce consistent classifications
and evolutionary-relevant groupings. The GA effectively minimizes structural distances
within genera and maximizes distances between them, despite computational challenges due
to the extensive number of comparisons required. Validation through a phylogenetic tree
constructed using the Neighbor-Joining (NJ) method in MEGA revealed high concordance
between the GA-generated clusters and traditional phylogenetic relationships.
This work contributes to understanding structural and evolutionary patterns in Coronaviridae
proteins and establishes a foundation for future research integrating computational biology,
optimization, and proteomics in the study of viral organisms.