Abstract:
Resumen.
A lo largo de los años algunas Instituciones u Organismos se han enfrentado con la problemática de EMPATAR1 dos o más ficheros de longitud n, donde n puede o no ser igual, con información similar en algunos campos o variables, por ejemplo si se tuvieran dos ficheros con contenido de información de personas, en uno de ellos las variables o campos que lo forman sean: nombre, apellido paterno, apellido materno, calle, número y colonia y en otro solo nombre y domicilio, donde nombre este formado por apellido paterno, apellido materno y nombre(s) y domicilio de calle, número exterior, número interior, colonia, código postal entidad y municipio, aunque en ambos el contenido de sus campos es similar su distribución y orden no es el mismo, si no se cuenta con un identificador único que los relacione uno a uno el proceso de identificar cuales de ellos se encuentran en ambos ficheros se dificulta y debe realizarse la comparación por medio del contenido de sus variables. La necesidad de relacionar los ficheros uno a uno como una función inyectiva, o bien, el de agrupar toda la información en un solo fichero evitando que la información se duplique, representa un alto costo si los ficheros son de extensas longitudes y el procesamiento es manual o semiautomático.
El Instituto Nacional de Estadística y Geografía (INEGI)2, quien es un organismo responsable de normar y coordinar el Sistema Nacional de Información Estadística y Geográfica, así como de realizar los censos nacionales, integrar el sistema de cuentas nacionales, y elaborar los índices nacionales de precios.
No se exenta de este tipo de problemáticas. La falta de un identificador único entre el Directorio Nacional de Unidades Económicas (DNUE) y los directorios externos de fuentes oficiales implica un costo y dificultad al momento de localizar registros de un fichero a otro, enfrentando la misma necesidad de realizar EMPATES por medio de cadenas de caracteres de las cuales no se tiene la certeza de que exista algún error tipográfico o bien, errores de omisión, traslape o adición de uno o más caracteres dentro de ellas.
Es por esto que se ha considerado y se propone la adopción de una de las metodologías derivadas del concepto RECORD LINKAGE (“Empate de Registros”), la cual básicamente consiste en relacionar dos o más ficheros por medio de variables de contenido similares, cuando no existe un identificador único que los relacione.
Con el propósito de facilitar el empate del DNUE con directorios externos, se propone la adopción de la teoría y conceptos relacionados. Asimismo se pretende, que la metodología apoye la conformación de empresas con la identificación de registros que se encuentren bajo la misma denominación de Razón Social y/o Nombre del Establecimiento que se almacenan dentro de un directorio de unidades económicas.
Está tesina propone la utilización de esta teoría mediante el prototipo de un sistema que permita identificar las bondades de su adopción para la formación del Directorio de Empresas.
Tomando como base teórica para el inicio de esta investigación el artículo de Fellegi y Sunter en 1969. “A Theory for Record Linkage.”