Caracterización de la varianza como un promedio de distancias
Caracterización de la varianza como un promedio de distancias
Dicen que la varianza resulta un estadístico más informativo que la media. En una red social se mencionó que la varianza se caracteriza como un promedio de las distancias entre las observaciones.
Ven, Espíritu divino,
manda tu luz desde el cielo.
Padre amoroso del pobre;
don, en tus dones espléndido;
luz que penetra las almas;
fuente del mayor consuelo. - Domingo de Pentecostés, 2021.
Es decir, la varianza de una variable aleatoria unidimensional discreta equivale al promedio de todas las distancias entre dos puntos:
\[Var(X) = \frac{1}{2n^{2}}\sum_{i=1}^{n}\sum_{j=1}^{n} (x_{i}-x_{j})^{2}=\frac{1}{n^{2}}\sum_{i=1}^{n-1}\sum_{j=i+1}^{n} (x_{i}-x_{j})^{2}.\]
Una simulación para verificar el resultado
Para quien desee una verificación rápida de esta propiedad, comprobamos mediante un simulación que ambos resultados coinciden. Generamos \(n\) observaciones al azar a partir de una distribución uniforme.
set.seed(123) n <- 300L x <- runif(n) head(x)
[1] 0.2875775 0.7883051 0.4089769 0.8830174 0.9404673 0.0455565
Creamos la matriz de distancias de todos los puntos. Obtenemos una matriz de dimensión \(n \times n\), donde la diagonal vale cero, pues representa la distancia de un punto consigo mismo.
d <- as.matrix(dist(x)) d[1:5,1:5] # Mostramos las (primeras) distancias.
1 2 3 4 5 1 0.0000000 0.50072762 0.1213994 0.59543988 0.65288976 2 0.5007276 0.00000000 0.3793282 0.09471227 0.15216215 3 0.1213994 0.37932821 0.0000000 0.47404048 0.53149036 4 0.5954399 0.09471227 0.4740405 0.00000000 0.05744988 5 0.6528898 0.15216215 0.5314904 0.05744988 0.00000000
Calculamos el promedio de todas las distancias al cuadrado mediante la siguiente relación:
(s <- sum(d^2) / (2 * n^2))
[1] 0.07848502
Y comprobamos que coincide con la varianza. Por definición de var
, está definida como la cuasivarianza, es decir, dividida por \(n-1\). Corregimos ese factor y comprobamos que ambos resultados coinciden.
v <- var(x) * (n-1)/n
identical(s, v)
[1] TRUE
[Observación. Para n=3
sale que no son idénticos, pues difieren en -6.938894e-18
unidades. Cuando se realiza este tipo de comprobación hay que contar con que la precisión de la máquina conlleva estas casuísticas.]
Un poco de álgebra
Quien desee comprobar la fórmula anterior, basta con desarrollar la suma de las distancias al cuadrado de todas las parejas de puntos para obtener la relación. \[\sum_{i=1}^{n}\sum_{j=1}^{n} (x_{i}-x_{j})^{2} = 2 n^{2} \left[ \frac{\sum_{i=1}^{n} x_{i}^{2}}{n}- \left(\frac{\sum_{i=1}^{n} x_{i}}{n}\right)^{2}\right] = 2n^{2} Var(X).\]
[No he conseguido encontrar la referencia donde vi esta caracterización. Intuyo que el autor es don José Luis Cañadas, pues le encanta la aproximación geométrica de la estadística, quien lo mencionó en alguna discusión con don Raúl Vaquerizo.]