Existen muchas aplicaciones que utilizan el concepto de
búsqueda de similaridad, entre ellas podemos mencionar: Consulta por contenido
en bases de datos estructuradas, búsqueda por contenido en
datos multimedia, recuperación de texto, biología
computacional, reconocimiento de patrones,
compresión de audio y video, etc.; no se ahondará en ellas por no ser
el tema central de este trabajo. Ahora bien entre las aplicaciones que usan los
vecinos más cercanos podemos mencionar las siguientes:
Este tipo de aplicaciones agrupan datos con algunas características comunes, y son
aplicadas a
la clasificación de resultados en recuperación de información
[Chá97,MB96], por ejemplo,
supóngase que estamos
recuperando documentos de texto y que hemos obtenido miles de documentos que satisfacen nuestros
parámetros de búsqueda; nuestro objetivo es agruparlos en
documentos que tratan sobre temas semejantes. En este punto cabe hacer notar que la parte más importante
en la resolución de este problema consiste en la localización de una buena medida de similaridad
entre documentos.
A continuación se presenta un ejemplo ilustrativo (no técnico) de
agrupamientos (cúmulos); el síndrome de Tarzán. Tarzán es un niño
que es dejado por accidente en la selva, y es criado por las bestias. En la selva
hay multitud de objetos, de los cuales desconoce el nombre. Algunos de estos objetos son comestibles,
otros son venenosos, curativos, peligrosos, inofensivos, etc. Como Tarzán sobrevivió hasta la
edad adulta?, es de suponer que encontró una manera de clasificarlos sin morir en el intento. Es
claro que si no hablamos el mismo lenguaje no vamos a asignar las mismas ``etiquetas'' a los mismos objetos;
más aún, Tarzán puede encontrar una larga serie de subdivisiones en las etiquetas que nosotros
podemos asignar. Una última observación: para efectos de sobrevivencia es irrelevante el tipo de
etiqueta (números, letras, símbolos diversos) que se le asigne a cada clase de objetos, siempre y cuando
sean distintas para cada una de ellas y puedan ser organizadas.
La búsqueda de los vecinos más cercanos se puede utilizar para realizar el preprocesamiento de algoritmos de indexamiento, como
los árboles desbalanceados multiraices (multi root unbalanced tree). La idea es hacer un agrupamiento de los
datos para resolver un problema de indexamiento.
La clasificación supervisada usada en la minería de datos es un
método empleado para el análisis de grandes colecciones de
información, si se construye una matriz de confusión sin
necesidad de una supervisión buscando todos
los vecinos más cercanos, se logra una clasificación
automática y con esta se podrían generar árboles de
decisión más eficientes [AGG].
Los algoritmos de Ranking representan un técnica para
recuperación de documentos. Una de las ventajas de este método es
que se elimina la necesidad de entender modelos teóricos, como
en otros algoritmos; los algoritmos de Ranking
están orientados al usuario final los cuales pueden recuperar
información usando el lenguaje natural, otra característica es
que los resultados están ordenados por un Ranking basados en
una co-ocurrencia de los términos de la consulta. En una de las
técnicas que usan los algoritmos Ranking ``podar (pruning)'' su principal
cuello de botella en el proceso de búsqueda es ordenar las
acumulaciones para grandes conjuntos de datos [Yaz], el cual puede
ser solucionado encontrando todos los NN.
La búsqueda de los vecinos más cercanos se usa en la prueba
de hipótesis o estimación de densidades para conocer los puntos
que están alrededor de un punto en una posición dada debido a que
estos puntos contribuirán a la función de densidad en esa
posición. Cuando se hace un análisis con agrupamiento se detecta el
máximo de la función de densidad local [USC].