Next: Conceptos Básicos Up: Introducción Previous: Introducción al problema Índice General

Motivación

Existen muchas aplicaciones que utilizan el concepto de búsqueda de similaridad, entre ellas podemos mencionar: Consulta por contenido en bases de datos estructuradas, búsqueda por contenido en datos multimedia, recuperación de texto, biología computacional, reconocimiento de patrones, compresión de audio y video, etc.; no se ahondará en ellas por no ser el tema central de este trabajo. Ahora bien entre las aplicaciones que usan los vecinos más cercanos podemos mencionar las siguientes:

Agrupamientos

Este tipo de aplicaciones agrupan datos con algunas características comunes, y son aplicadas a la clasificación de resultados en recuperación de información [Chá97,MB96], por ejemplo, supóngase que estamos recuperando documentos de texto y que hemos obtenido miles de documentos que satisfacen nuestros parámetros de búsqueda; nuestro objetivo es agruparlos en documentos que tratan sobre temas semejantes. En este punto cabe hacer notar que la parte más importante en la resolución de este problema consiste en la localización de una buena medida de similaridad entre documentos.

A continuación se presenta un ejemplo ilustrativo (no técnico) de agrupamientos (cúmulos); el síndrome de Tarzán. Tarzán es un niño que es dejado por accidente en la selva, y es criado por las bestias. En la selva hay multitud de objetos, de los cuales desconoce el nombre. Algunos de estos objetos son comestibles, otros son venenosos, curativos, peligrosos, inofensivos, etc. Como Tarzán sobrevivió hasta la edad adulta?, es de suponer que encontró una manera de clasificarlos sin morir en el intento. Es claro que si no hablamos el mismo lenguaje no vamos a asignar las mismas ``etiquetas'' a los mismos objetos; más aún, Tarzán puede encontrar una larga serie de subdivisiones en las etiquetas que nosotros podemos asignar. Una última observación: para efectos de sobrevivencia es irrelevante el tipo de etiqueta (números, letras, símbolos diversos) que se le asigne a cada clase de objetos, siempre y cuando sean distintas para cada una de ellas y puedan ser organizadas.
Precondicionamiento de algoritmos de indexamiento

La búsqueda de los vecinos más cercanos se puede utilizar para realizar el preprocesamiento de algoritmos de indexamiento, como los árboles desbalanceados multiraices (multi root unbalanced tree). La idea es hacer un agrupamiento de los datos para resolver un problema de indexamiento.
Matrices de confusión para probar el algoritmo NN

La clasificación supervisada usada en la minería de datos es un método empleado para el análisis de grandes colecciones de información, si se construye una matriz de confusión sin necesidad de una supervisión buscando todos los vecinos más cercanos, se logra una clasificación automática y con esta se podrían generar árboles de decisión más eficientes [AGG].
Algoritmos de Ranking

Los algoritmos de Ranking representan un técnica para recuperación de documentos. Una de las ventajas de este método es que se elimina la necesidad de entender modelos teóricos, como en otros algoritmos; los algoritmos de Ranking están orientados al usuario final los cuales pueden recuperar información usando el lenguaje natural, otra característica es que los resultados están ordenados por un Ranking basados en una co-ocurrencia de los términos de la consulta. En una de las técnicas que usan los algoritmos Ranking ``podar (pruning)'' su principal cuello de botella en el proceso de búsqueda es ordenar las acumulaciones para grandes conjuntos de datos [Yaz], el cual puede ser solucionado encontrando todos los NN.
Pruebas de hipótesis

La búsqueda de los vecinos más cercanos se usa en la prueba de hipótesis o estimación de densidades para conocer los puntos que están alrededor de un punto en una posición dada debido a que estos puntos contribuirán a la función de densidad en esa posición. Cuando se hace un análisis con agrupamiento se detecta el máximo de la función de densidad local [USC].

Next: Conceptos Básicos Up: Introducción Previous: Introducción al problema Índice General

Karina Mariela Figueroa Mora 2001-07-02