Una explicación intuitiva del problema del porque el problema se más difícil a medida que la
dimensión crece esta dada en la sección , en esta sección se dará una
medida para cuantificar la dimensión intrínseca [CN99].
Definición: La dimensión intrínseca de un espacio métrico esta definida como
, donde y son la media y la varianza del histograma de
distancias correspondiente.
Obsérvese que la dimensión intrínseca crece con la media y con la inversa de la varianza de un histograma de distancias.
Si se pretende conocer el límite inferior de los algoritmos que usan pivotes, para conocer el
desempeño del algoritmo, necesitamos relacionar
la dimensión intrínseca con la dificultad de la búsqueda con un
radio dado.
Sea una consulta de rango sobre un espacio métrico indexado por medio de
pivotes
aleatorios y sea
un elemento de
. La probabilidad de que
no pueda ser excluída desde
una verificación directa después de considerar los
pivotes es exactamente.
![]() |
(C.1) |
Puesto que todos los pivotes es asumido que son aleatorios y sus distribuciones de distancia variables aleatorias, esta expresión es el producto de probabilidades.
![]() |
(C.2) |
las cuales, por la misma razón puede ser simplificado a
no descartado
para un pivote aleatorio .
Si y
son dos variables aleatorias con media y varianza , entonces la media
de
es 0, y su varianza es
. Usando la desigualdad de Chebyschev's tenemos que
. por lo tanto,
no descartados
Ahora tenemos que el costo total de la búsqueda es le número de cálculos de distancia
internas () más los cálculos externos (aquellos a checar como candidatos), aquellos
números es un promedio de
. Por lo tanto,
![]() |
(C.3) |
es un límite inferior del costo promedio de las búsquedas usando pivotes. Optimizando podemos obtener que el mejor número de pivotes es:
![]() |
(C.4) |
donde
. Usando este número de pivotes
, obtenemos un límite inferior
absoluto para el costo promedio de cualquier algoritmo basado en pivotes aleatorios.
![]() |
(C.5) |
esto muestra que el costo depende fuertemente de . Si
incrementa tiende a 1 y
el esquema requiere más y más pivotes y por cualquier lado es mas y mas costoso.