RESUMEN
Este trabajo de tesis fue elaborado con el fin de poder analizar 3 algoritmos
fonéticos, para su utilización en la búsqueda de nombres en español dentro de la
lista negra de OFAC.
Todo esto con el objetivo de poder elegir el algoritmo que mejores resultados
mostrase en relación a su índice de falsos positivos y efectividad en la búsqueda,
para el combate al lavado de dinero y el financiamiento al terrorismo.
Se generó una lista de nombres hispanos con 10,000 entradas distribuidas
aleatoriamente para hacer las pruebas de los algoritmos, tales que fueron
obtenidos mediante el uso de la paquetería de algoritmos fonéticos provista por
apache y que están programados en el lenguaje java.
Posteriormente se elaboró un software capaz de utilizar los algoritmos fonéticos, y
que recibiera de entrada un conjunto de datos divididos en 15 muestras de 20
nombres y así poder ver el índice de coincidencias positivas de estos algoritmos,
cuando se comparaban los conjuntos de datos contra la lista negra de OFAC.
Una vez obtenidas las coincidencias se procedió a analizar los datos, mediante un
estudio estadístico de ANOVA de una sola vía, esto para un total de 6 variables
distintas que al final nos ayudarían a determinar que algoritmo tiene un mejor
comportamiento y eficacia al ser utilizado con una lista de nombres en español.
Al final se analizaron los resultados y se arrojaron las conclusiones pertinentes,
seleccionando el algoritmo que mejor cumplía con las premisas de los objetivos
planteados en este documento
Por último, se platicaron las recomendaciones para un estudio posterior que parta
de la investigación hecha en este documento y que se beneficie de los resultados
arrojados al final del análisis de esta tesis.
ABSTRACT
The main purpose of this work was to analyse the characteristics of 3 phonetic
algorithms in order to discern which of them is the most suitable to be used in the
search of names written in Spanish at the OFAC blacklist.
The chosen algorithm was the one with the lowest false positive rate while continues
being effective in the search of any given name. The aim is to use the result of this
study to help the combat of money laundry and terrorism financing.
The phonetic algorithms were obtained from the java encode package provided
by apache, and it was generated a list with 10,000 names in spanish with a random
generation pattern to be used with the phonetic algorithms and the OFAC blacklist.
A special software was developed in order to use the phonetic algorithm package
and the lists of names and blacklist, this software accepted as an entry value a list
of files that was matched with the phonetic algorithms and the OFAC blacklist.
The sample was created forming 15 groups of 20 entries and put them in files that
were processed by the software created, all this in order to create some metrics that
were used to analyze the algorithms and the different variables that helped proving
the objetives.
Finally the information was compared using the one way ANOVA test in order to
determine which algorithm showed the best results with the different variables
evaluated.