En la presente tesis se introduce un método eficiente para la compresión con pérdida de
información diseñado para imágenes de documentos de texto binivel digitalizados. El
método utiliza un diccionario conformado por representantes de clase que es generado
utilizando un criterio de mínima entropía. El algoritmo identifica inicialmente los diferentes
símbolos contenidos en la imagen de documento, y posteriormente los símbolos
son agrupados en clases por medio de un algoritmo de clusterización, particularmente el
agrupamiento jerárquico haciendo uso de una distancia de similaridad. Para cada clase,
se selecciona un representante utilizando el principio de entropía mínima. La técnica
crea un archivo de texto en el que cada objeto que pertenece a una clase es reemplazado
por su representante de clase junto con su referencia. Finalmente, éste archivo resultante
es comprimido con ayuda del archivador Paq8; compresor sin pérdida de información
que usa un algoritmo de mezcla de contexto y así detectar la redundancia existente en el
archivo. El rendimiento del algoritmo propuesto se evalúa utilizando archivos digitalizados
de una base de datos estándar propuesta para la compresión de documentos por el
Comité Consultivo para la Telegrafía y Telefonía Internacional (CCITT - Consultative
Commitee for International Telephony and Telegraphy) en sus diferentes resoluciones.
Se realizan comparaciones con otros algoritmos de última generación. Nuestros resultados
establecen cuantitativamente que nuestra metodología propuesta es una técnica
con una razón de compresión menor.
In the present thesis is introduced an efficient method for lossy compression of digitalized
bilevel image documents. The method uses a dictionary which consists of class
representative defined using a minimum entropy criterion. The algorithm initially identifies
the different symbols contained in a image document, and then the symbols are
grouped in classes by means of a clustering algorithm, particularly hierarchic clustering
and suitable similarity distances. For each class, a representative is selected using
the principle of minimum entropy. The technique creates a file in which every object
belonging to a class is replaced by its class representative and his reference, as well.
Finally, the resulting file is compressed with the archiver Paq8, a compressor lossy that
uses a context mixing algorithm. The performance of the proposed algorithm is assessed
using digitized files from a standard database for document compression along
with different resolutions. Comparisons against other state-of-the-art algorithms are
performed in this manuscript. The results establish quantitatively that the presented
methodology is a more efficient technique.