Resumen
En la actualidad, existen bases de datos cada vez más robustas como consecuencia de la digitalización de la información. Tal es el caso de la medicina, cuyos avances en el análisis, tratamiento y diagnóstico de patologías, proveen grandes cantidades de información. Por esta razón, la interacción de la medicina con las ciencias computacionales resulta en una novedosa perspectiva que reduce costos, tiempo y errores.
El presente documento describe la aplicación la selección de subconjuntos de características y la teoría de testores en patologías médicas, encontrando aquellas características que inciden de forma determinante en cada enfermedad. En concreto, se analizó una base de datos de células malignas y benignas de cáncer de mama, así como una base de datos de casos leves, moderados y graves de hemofilia. Para ello, se hizo uso de la teoría de testores que permite identificar conjuntos de testores típicos, los cuales representan la información mínima necesaria para distinguir objetos en sus respectivas clases.
La identificación de testores típicos es un problema exponencial respecto al número de características involucradas. Por esta razón, se hibridaron dos metaheurísticas: el algoritmo genético (AG) y el algoritmo de estimación de la distribución (EDA) por medio de la inclusión de un nuevo operador denominado como operador de alteración, el cual altera un porcentaje de la solución en búsqueda de mejores soluciones haciendo que la búsqueda en el espacio de soluciones sea más rápida.
La implementación de las metaheurísticas fue apoyada por la adaptación de modelos arquitectónicos de software y modelos de patrones de diseño propuestos por la ingeniería de software. Estos modelos proveen de diferentes niveles de abstracción de cada sistema permitiendo la identificación de sus componentes y sus interacciones para lograr su objetivo.
Al final de esta investigación se contó con dos metaheurísticas hibridas y afinadas para cada problema, es decir, se determinaron los valores de parámetros adecuados para mejorar su desempeño; además de la identificación de los testores típicos y su respectiva interpretación para cada una de las patologías.
Abstract
At the present, there are more and more robust databases as a result of the digitalization of information. Such is the case of medicine, whose advances in the analysis, treatment and diagnosis of pathologies, provide a large wealth of information. For this reason, the interaction of medicine with computer sciences results in a novel perspective that reduces costs, time and errors.
This document describes the application of the Feature Subset Selección and Typical Testors Theory to medical pathologists, finding those features that have a determining influence in each disease. Specifically, a database of malignant and benign breast cancer cells was analyzed, as well as a data base of mild, moderate and severe cases of hemophilia. To do this, the Typical Testors theory was applied, allowing the identification of sets of typical testors, which represent the minimun information needed to distinguish objects in their respective classes.
The identification of the typical testors is an exponential problem regarding the the number of the features involved. For this reason, two metaheuristics were hybridized: the genetic algorithm (GA) and the estimation of the distribution algorithm (EDA) by means of the inclusión of a new operator named as alteration operator, which modufies a percentage of the solution in search for better solutions making the search in the space of solutions faster.
The implementation of the metaheuristics was supported by the adaptation of architertural software and design patterns models proposed by software engineering. These models provide different levels of abstraction of each system allowing the identification of their components and their interactions to achieve its objective.
At the end of this investigation, there were two hybrid and refined metaheuristics for each problem, i.e., the appropiate parameter values were determined to improve their performance; in addition to the identification of typical testors and their respective interpretation for each pathology.