Resumen:
RESUMEN
En
este
trabajo
de
tesis
se
investigaron
los
métodos
para
identificar
patrones
en
el
texto
introducido
previo
a
una
búsqueda
web[1],
este
procedimiento
implementa
un
procedimiento
que
funcione
como
un
agente
que
reconozca
los
patrones
introducidos
apoyándose
en
una
base
de
conocimientos
previa
que
contienen
los
posibles
casos
en
el
área
de
lenguajes
de
programación,
así
como
una
técnica
de
búsqueda
en
modo
de
clusters[2]
para
tener
un
mejor
tiempo
de
respuesta
en
las
búsquedas.
La
búsqueda
de
información
por
parte
de
investigadores
para
la
generación
de
nuevos
contenidos
lleva
a
usar
motores
de
búsqueda
convencionales
para
localizar
información,
estos
motores
no
tienen
ningún
filtro
previo
que
ayude
al
investigador
a
obtener,
existen
actualmente
metabuscadores
pero
están
hechos
solo
para
información
que
se
encuentra
previamente
procesada
para
ser
localizada
por
los
metabuscadores.
Este
tipo
de
limitaciones
genera
una
necesidad
para
encontrar
un
método
que
nos
ayude
a
la
clasificación
y
localización
de
información
contenida
en
artículos
de
investigación
comúnmente
localizada
en
lenguaje
natural,
por
lo
cual
se
necesita
de
una
herramienta
que
nos
ayude
a
facilitar
el
trabajo
de
los
investigadores
en
la
localización
de
artículos
de
investigación.
La
utilización
de
técnicas
para
la
clasificación
de
información
lleva
como
fin
la
implementación
de
técnicas
comúnmente
utilizadas
en
minería
de
datos[3]
para
adaptarlas
hacia
un
funcionamiento
asociando
directamente
documentos
de
texto
mediante
técnicas
utilizadas
en
minería
de
textos
donde
destaca
la
utilización
de
filters
que
es
la
utilización
de
un
filtro
que
ayuda
a
catalogar
la
información
contenida
de
un
documento
utilizando
como
base
principal
una
base
de
conocimiento
que
ayudara
a
determinar
el
contenido
de
dicho
contenido
mediante
frases
o
palabras
que
estén
asociadas
a
un
tema
específico
a
catalogar,
este
enfoque
es
utilizando
un
esquema
de
aprendizaje
semiautomático
debido
a
que
depende
en
gran
parte
de
la
información
contenida
en
la
base
de
conocimiento
para
lograr
una
clasificación
acertada.
Existen
también
técnicas
de
aprendizaje
automático[4]
que
se
adaptan
al
mismo
documento
y
en
base
a
la
información
que
encuentran
determinan
la
clasificación
a
la
cual
pertenecen
,
este
tipo
de
técnicas
son
llamadas
wrappers
tienen
como
desventaja
ante
un
filter
el
hecho
de
que
tarda
más
en
procesar
y
clasificar
la
información
debido
a
que
se
adaptan
al
tipo
de
documento,
es
decir
no
necesitan
de
una
base
de
conocimiento
y
también
es
compleja
su
implementación
debido
a
que
se
necesita
de
una
meta
heurística
o
heurística
para
optimizar
un
poco
el
funcionamiento,
los
resultados
que
se
obtienen
mediante
esta
técnica
son
mucho
mejores
que
los
del
uso
de
un
filter
pero
tienen
como
desventaja
el
tiempo
que
tardan
en
procesar
y
clasificar
el
documento.
El
presente
trabajo
de
tesis
plantea
la
utilización
como
base
un
filter
apoyándose
en
una
base
de
conocimientos
que
leerá
un
documento
pdf
para
determinar
el
tipo
de
contenido
que
tiene
y
clasificarlo
según
el
tipo
de
información
que
tenga
con
las
categorías
principales
de
programación,
base
de
datos
y
sistemas
operativos.
El
uso
de
una
base
de
conocimiento
será
la
principal
herramienta
que
utilizaremos
para
clasificar
pero
tiene
como
agregado
un
algoritmo
5
de
colonia
de
hormigas
que
ayudara
a
recorrer
el
documento
pdf
de
una
mejor
manera
para
optimizar
el
funcionamiento
y
obtener
el
mejor
resultado
posible
de
la
clasificación.
Una
vez
establecida
la
categoría
se
asignara
el
documento
al
cluster
que
le
corresponde,
los
clusters
serán
especificados
mediante
el
algoritmo
k-‐means[5].