Todos lo algoritmos de búsqueda tratan de capturar las
propiedades geométricas del espacio, las cuales son complejas y costosas de evaluar y
algunas son difíciles de extender a espacios métricos [CNBYM99]. Muchos autores han
propuesto usar los histogramas de distancias para caracterizar la dificultad de la búsqueda en
un espacio métrico arbitrario. Si se considera el histograma de distancias entre puntos en un
espacio métrico , usando un diccionario
, se puede dar una explicación intuitiva del porque el
problema de búsqueda es más difícil cuando el histograma esta concentrado (véase la figura
). Si consideramos una consulta aleatoria
y un esquema de indexamiento basado
en pivotes, entonces las posibles distancias entre
y un pivote son distribuidas de acuerdo
al histograma de esta figura. La regla de eliminación dice que podemos descartar cualquier punto
tal que
, . El área gris
en la figura muestra los puntos que
no pueden ser descartados. Conforme el histograma esta más y más concentrado al punto
, menos y
menos puntos pueden ser descartados usando la información dada por
.
|
Para observar el desempeño del algoritmo se probó este algoritmo en un espacio dimensional completo, variando el número de pivotes,
variando el número de vecinos más cercanos (), y por supuesto variando también el número
de elementos en el conjunto de puntos, en las siguientes secciones se presentan
los resultados experimentales.
En las gráficas mostradas se nota que hay un cambio de tener un algoritmo subcuadrático a uno sublineal si medimos solo los cálculos de distancia
externas (no contando el costo de construcción del índice). Esto es posible por que en
algunos casos (muy común para los últimos elementos de la base de datos) podemos
resolver las consultas de proximidad casi sin ningún cálculo de distancia, cuando el máximo radio
en la cola de prioridad coincide con la lista actual de vecinos más cercanos ().
En las siguientes secciones se mostrarán los resultados experimentales de este algoritmo, es importante enfatizar que en cada una de las gráficas mostradas a continuación es mucho mejor que usar la fuerza bruta y las gráficas presentadas son comparadas con esta heurística.