UP | HOME |

Caracterización de la varianza como un promedio de distancias

Caracterización de la varianza como un promedio de distancias

Dicen que la varianza resulta un estadístico más informativo que la media. En una red social se mencionó que la varianza se caracteriza como un promedio de las distancias entre las observaciones.

Ven, Espíritu divino,
manda tu luz desde el cielo.
Padre amoroso del pobre;
don, en tus dones espléndido;
luz que penetra las almas;
fuente del mayor consuelo. - Domingo de Pentecostés, 2021.

Pentecostés, El Greco

Es decir, la varianza de una variable aleatoria unidimensional discreta equivale al promedio de todas las distancias entre dos puntos:

\[Var(X) = \frac{1}{2n^{2}}\sum_{i=1}^{n}\sum_{j=1}^{n} (x_{i}-x_{j})^{2}=\frac{1}{n^{2}}\sum_{i=1}^{n-1}\sum_{j=i+1}^{n} (x_{i}-x_{j})^{2}.\]

Una simulación para verificar el resultado

Para quien desee una verificación rápida de esta propiedad, comprobamos mediante un simulación que ambos resultados coinciden. Generamos \(n\) observaciones al azar a partir de una distribución uniforme.

set.seed(123)
n <- 300L
x <- runif(n)
head(x)
[1] 0.2875775 0.7883051 0.4089769 0.8830174 0.9404673 0.0455565

Creamos la matriz de distancias de todos los puntos. Obtenemos una matriz de dimensión \(n \times n\), donde la diagonal vale cero, pues representa la distancia de un punto consigo mismo.

d <- as.matrix(dist(x))
d[1:5,1:5] # Mostramos las (primeras) distancias.
          1          2         3          4          5
1 0.0000000 0.50072762 0.1213994 0.59543988 0.65288976
2 0.5007276 0.00000000 0.3793282 0.09471227 0.15216215
3 0.1213994 0.37932821 0.0000000 0.47404048 0.53149036
4 0.5954399 0.09471227 0.4740405 0.00000000 0.05744988
5 0.6528898 0.15216215 0.5314904 0.05744988 0.00000000

Calculamos el promedio de todas las distancias al cuadrado mediante la siguiente relación:

(s <- sum(d^2) / (2 * n^2))
[1] 0.07848502

Y comprobamos que coincide con la varianza. Por definición de var, está definida como la cuasivarianza, es decir, dividida por \(n-1\). Corregimos ese factor y comprobamos que ambos resultados coinciden.

v <- var(x) * (n-1)/n
identical(s, v)
[1] TRUE

[Observación. Para n=3 sale que no son idénticos, pues difieren en -6.938894e-18 unidades. Cuando se realiza este tipo de comprobación hay que contar con que la precisión de la máquina conlleva estas casuísticas.]

Un poco de álgebra

Quien desee comprobar la fórmula anterior, basta con desarrollar la suma de las distancias al cuadrado de todas las parejas de puntos para obtener la relación. \[\sum_{i=1}^{n}\sum_{j=1}^{n} (x_{i}-x_{j})^{2} = 2 n^{2} \left[ \frac{\sum_{i=1}^{n} x_{i}^{2}}{n}- \left(\frac{\sum_{i=1}^{n} x_{i}}{n}\right)^{2}\right] = 2n^{2} Var(X).\]

[No he conseguido encontrar la referencia donde vi esta caracterización. Intuyo que el autor es don José Luis Cañadas, pues le encanta la aproximación geométrica de la estadística, quien lo mencionó en alguna discusión con don Raúl Vaquerizo.]