Resumen.
Actualmente la población mundial ha conocido sobre la existencia del coronavirus y las
enfermedades que puede causar, así como las consecuencias que conlleva una pandemia. Sin
embargo, no todas las personas conocen la existencia de la familia coronaviridae y el historial
de los problemas que ha generado, debido a que la mayoría de estos virus usan animales como
huéspedes, mayormente murciélagos. Este trabajo tiene por objetivo presentar un modelo
que construya grupos de organismos basado en las similitudes de las proteínas que lo integran
partiendo de la utilización del criterio de mejores aciertos bidireccionales (MAB o BBH). Se
plantea como un problema de optimización combinatoria multiobjetivo y se aplican técnicas
computacionales con algoritmos propuestos para el análisis de otros organismos. Durante el
avance del proyecto, fue necesaria la construcción de piezas de software con el fin de aportar
a la eficiencia de las metodologías usadas por medio de la automatización de la adquisición de
los datos. Se ha trabajado con 68 organismos de los más de 200 reportados en la familia de los
coronaviridae. Los proteomas fueron obtenidos de repositorios de secuencias que
previamente han sido curados y dan confianza en la calidad de la información que contienen.
En el primer capítulo se extiende un compendio de las temáticas de mayor relevancia para el
desarrollo del proyecto. El contenido del segundo capítulo es la descripción del proceso de
obtención de los datos, y la aportación de una herramienta que automatiza su
preprocesamiento. Durante el capítulo tercero se presenta el modelo propuesto para resolver
mediante una metaheurística el problema de optimización multiobjetivo de la búsqueda de
grupos de proteínas y se relata la selección de una metaheurística de carácter poblacional
como es el EDA o Algoritmo de Estimación de la Distribución, que ha sido la herramienta
seleccionada para realizar la búsqueda de los grupos de datos luego de su alistamiento y
procesamiento. En el mismo capítulo se presentan las funciones objetivo seleccionadas para la
clusterización y subsecuentemente la salida obtenida de la ejecución de los experimentos. La
sección de resultados muestra las agrupaciones propuestas por los clústeres generados con la
ayuda de la metaheurística que agrupa respecto de las proteínas y las similitudes que éstas
tienen. El trabajo desarrollado y explicado en este documento trata de realizar una
contribución con la identificación de grupos de proteínas de los miembros de la familia
coronaviridae usando una perspectiva desde el área proteómica. Esto conllevará a que los
esfuerzos de entender estos organismos (también se puede aplicar a otros organismos),
tengan en cuenta los elementos que son comunes entre ellos y se puedan tomar acciones que
contrarresten su impacto en la humanidad a manera de familia y no de un solo organismo.
Abstract.
Nowadays the global population knows about coronavirus and the diseases that it can produce
and, more important, the consequences in a lot of ways of a pandemic. But not all people know
about the existence of the coronaviridae family, and the record of problems generated,
because in a lot of this viruses the hosts is any animal, in a greater extent, bats. The aim of the
work is to present a model to build a set of organisms based in the similarity of the proteins
that make it up supported in the Bidirectional Best Hits (BBH) concept. The work developed
and explained here try to contribute with the identification for a set of characteristics of the
coronaviridae family members using a perspective in the proteomic area. Applying
biocomputational techniques mixed with algorithms proposed for analyze other organisms.
While this project was necessary develop a software piece aimed to support of the used
methodologies. Has been used 68 organisms from over 200 reported in the coronaviridae
family. The proteomes have been obtained from reviewed sequences repositories to have
more confidence in the quality of the information contained. The first chapter confines an
extended the more relevant syllabus needed for the project. In the second chapter it is
described the acquisition of the proteomic data, with the developed tool for the automation
of the data preprocessing. For the third chapter the aim is to relate the specific approach to
the optimization problem. Also, this chapter contains the object functions selected for
clustering and the metaheuristic selection process, the EDA (Estimation Distribution
Algorithm) chosen for look the groups of data after the preprocess. Subsequently in the same
chapter the output of the experiments performed will be presented. The results section of the
document shows the sets proposed for the generated clusters based in the selected
metaheuristic that make groups based in the proteins and their similarity. It will drive for an
effort for understand these organisms contemplating the common elements between they
and take actions to reduce their impact in the human spice as a family and not as a single
organism.