Abstract
We live in an information age, where large amounts of information are generated
over time. Researchers discover new information and it is shared in the shortest possible
time. One area that works with new information is bioinformatics, which deals with the
application of computational methods for the analysis of biological data. The analysis
of proteins is a complex problem, proteins are made up of an indeterminate amount of
amino acids. There are 20 standard amino acids and there are no rules for how amino
acids make up proteins. The search and identification of three-dimensional motifs is
an extremely important task, since thanks to the location of the motifs, amino acid
subsequences of a protein can be characterized and related to a specific structure and
functionality. For this reason, the search for motifs is an important, but complex task,
because the possible combinations of amino acids that make up a protein give rise
to a combinatorial problem, since the larger the sequence to search for, the number
of possible combinations increases exponentially. For this reason, a methodology is
implemented in which from a set of protein sequences of the family coronaviridae, a
set of sequences with the best bidirectional hits is obtained, from this set a subset of
conserved subsequences is obtained. By means of the probability estimation algorithm,
a set of sequences highly compatible by physicochemical properties is searched for each
conserved subsequence. This methodology is applicable to any set of proteins. The
results obtained is a set of conserved subsequences and a highly compatible sequence
set. With this work, a new methodology is left for the generation of highly compatible
sequences that are expected to be used for the characterization of protein subsequences.
Resumen Vivimos una era de información, donde al paso del tiempo se genera grandes cantidades de información. Los investigadores descubren nueva información y es compartida en el menor tiempo posible. Un área que trabaja con información nueva es la bioinformática, que se encarga de la aplicación de métodos computacionales para el análisis de datos biológicos. El análisis de las proteínas es un problema complejo, las proteínas están formadas por una cantidad indeterminada de aminoácidos. Existen 20 aminoácidos estándar y no se tiene ninguna regla sobre la forma que los aminoácidos conforman las proteínas. La búsqueda e identificación de motivos tridimensionales es una tarea sumamente importante, ya que gracias a la localización de los motivos se pueden caracterizar subsecuencias de aminoácidos de una proteína y relacionarlos con una estructura y funcionalidad determinada. Por tal razón la búsqueda de motivos es una tarea importante, pero compleja porque las posibles combinaciones de aminoácidos que conforman una proteína dan origen a un problema combinatorio, ya que entre más grande es la secuencia para buscar el número de posibles combinaciones se incrementa exponencialmente. Por tal razón se implementa una metodología en la cual a partir de un conjunto de secuencias de proteínas de la familia coronaviridae, se obtiene un conjunto de secuencias con los mejores aciertos bidireccionales, a este conjunto se obtiene un subconjunto de subsecuencias conservadas. Por medio del algoritmo de estimación de la probabilidad se busca un conjunto de secuencias altamente compatibles por las propiedades fisicoquímicas para cada subsecuencia conservada. Esta metodología es aplicable a cualquier conjunto de proteínas. Los resultados obtenidos es un conjunto de subsecuencias conservadas y un conjunto de secuencia altamente compatible. Con este trabajo se deja una nueva metodología para la generación de secuencias altamente compatibles que se esperan que sean utilizadas para la caracterización de subsecuencias de proteínas