Análisis comparativo de algoritmos de búsqueda de coincidencia de nombres por variación fonética contra la lista OFAC para determinar su eficacia contra una lista de nombres en español

Inicio
→
TESIS
→
Maestría
→
Ver ítem

Análisis comparativo de algoritmos de búsqueda de coincidencia de nombres por variación fonética contra la lista OFAC para determinar su eficacia contra una lista de nombres en español

Martínez Cámara, José de Jesús

Fecha: 2016-06

Resumen:

RESUMEN Este trabajo de tesis fue elaborado con el fin de poder analizar 3 algoritmos fonéticos, para su utilización en la búsqueda de nombres en español dentro de la lista negra de OFAC. Todo esto con el objetivo de poder elegir el algoritmo que mejores resultados mostrase en relación a su índice de falsos positivos y efectividad en la búsqueda, para el combate al lavado de dinero y el financiamiento al terrorismo. Se generó una lista de nombres hispanos con 10,000 entradas distribuidas aleatoriamente para hacer las pruebas de los algoritmos, tales que fueron obtenidos mediante el uso de la paquetería de algoritmos fonéticos provista por apache y que están programados en el lenguaje java. Posteriormente se elaboró un software capaz de utilizar los algoritmos fonéticos, y que recibiera de entrada un conjunto de datos divididos en 15 muestras de 20 nombres y así poder ver el índice de coincidencias positivas de estos algoritmos, cuando se comparaban los conjuntos de datos contra la lista negra de OFAC. Una vez obtenidas las coincidencias se procedió a analizar los datos, mediante un estudio estadístico de ANOVA de una sola vía, esto para un total de 6 variables distintas que al final nos ayudarían a determinar que algoritmo tiene un mejor comportamiento y eficacia al ser utilizado con una lista de nombres en español. Al final se analizaron los resultados y se arrojaron las conclusiones pertinentes, seleccionando el algoritmo que mejor cumplía con las premisas de los objetivos planteados en este documento Por último, se platicaron las recomendaciones para un estudio posterior que parta de la investigación hecha en este documento y que se beneficie de los resultados arrojados al final del análisis de esta tesis.

ABSTRACT The main purpose of this work was to analyse the characteristics of 3 phonetic algorithms in order to discern which of them is the most suitable to be used in the search of names written in Spanish at the OFAC blacklist. The chosen algorithm was the one with the lowest false positive rate while continues being effective in the search of any given name. The aim is to use the result of this study to help the combat of money laundry and terrorism financing. The phonetic algorithms were obtained from the java encode package provided by apache, and it was generated a list with 10,000 names in spanish with a random generation pattern to be used with the phonetic algorithms and the OFAC blacklist. A special software was developed in order to use the phonetic algorithm package and the lists of names and blacklist, this software accepted as an entry value a list of files that was matched with the phonetic algorithms and the OFAC blacklist. The sample was created forming 15 groups of 20 entries and put them in files that were processed by the software created, all this in order to create some metrics that were used to analyze the algorithms and the different variables that helped proving the objetives. Finally the information was compared using the one way ANOVA test in order to determine which algorithm showed the best results with the different variables evaluated.