UP | HOME |

Interpretación del intervalo de confianza paramétrico. Inferencia Estadística

Interpretación del intervalo de confianza paramétrico

Definición de intervalo de confianza aleatorio

Sea (\(\xi_1,\xi_2,\ldots,\xi_n\)) una muestra aleatoria simple de una variable aleatoria \(\xi\) cuya distribución depende de un parámetro \(\theta\). Los estadísticos \(T_{\ast}\) y \(T^{\ast}\) \[T_{\ast}=g_1(\xi_1,\xi_2,\ldots,\xi_n) \text{ y } T^{\ast}=g_2(\xi_1,\xi_2,\ldots,\xi_n),\] constituyen un intervalo aleatorio para \(\theta\) con nivel de confianza \(1-\alpha\) cuando cumplen que \(T_{\ast} < T^{\ast}\) para toda muestra de tamaño \(n\) y \(Pr(T_{\ast} <\theta< T^{\ast}) = 1-\alpha\).

¡Rey don Sancho, rey don Sancho!,
no digas que no te aviso,
que de dentro de Zamora
un alevoso ha salido;
llámase Vellido Dolfos,
hijo de Dolfos Vellido,
cuatro traiciones ha hecho,
y con esta serán cinco.

Portillo de la traición, Zamora.

Nivel de confianza

El nivel de confianza representa la probabilidad de que los estadísticos \(T_{\ast}\) y \(T^{\ast}\) valgan menos y más que el parámetro \(\theta\), respectivamente. El valor de \(\theta\) es constante, mientras que el intervalo aleatorio \((T_{\ast},T^{\ast})\) varía aleatoriamente.

Dado un nivel de confianza, pueden existir numerosos estadísticos que cumplan la condición previa. El método pivotal obtiene los intervalos de confianza a partir de una variable \(T=T(\xi_1,\xi_2,\ldots,\xi_n;\theta)\) creada mediante una función continua y monótona en \(\theta\) cuya distribución no dependa de \(\theta\). Cualquier variable aleatoria que cumpla estas condiciones recibe el nombre de función pivotal.

Una vez fijado el coeficiente de confianza \(1-\alpha\), determinamos posibles valores \(a\) y un \(b\) tales que \(Pr(a < T < b) = 1-\alpha\), y escogemos los de menor amplitud. A partir de estos valores \(a\) y \(b\) se despeja \(\theta\).

\(\alpha\) recibe el nombre de nivel de significación.

Interpretación del nivel de confianza

El nivel de confianza significa que de cada cien veces que realicemos el experimento, –obtenemos cien intervalos de confianza–, aproximadamente solo el \(1-\alpha\) por ciento contendrá el verdadero valor poblacional.

El siguiente ejemplo detalla la importancia de entender bien el significado del nivel de confianza.

Se ha descubierto que una reacción química sigue una distribución normal de media diez y desviación típica dos unidades. Con el fin de comprobar la fiabilidad de los laboratorios, se ha pedido a mil trescientos expertos que repliquen en sus laboratorios el mismo procedimiento. Este protocolo consiste en examinar cuatrocientas observaciones de la reacción química. Cada uno de ellos anota los cuatrocientos datos y obtiene un intervalo de confianza al 95% para el valor medio.

## Data and parameters
mu <- 10
sigma <- 2
nexperts <- 1300
nsize <- 400
alpha <- 0.05

## Results of each laboratory
set.seed(123) # for reproducibility
intervalueconfidence <- replicate(nexperts,{
    x <- rnorm(nsize,mu,sigma)
    xbar <- mean(x)
    s <- sd(x)
    error <- qt(1 - alpha/2,nsize-1) * s*sqrt(1/nsize)
    c(lowerlimit=xbar-error,upperlimit=xbar+error)
})

## Sort them
oo <- order(intervalueconfidence[1,])
intervalueconfidence <- t(intervalueconfidence[,oo])
data <- as.data.frame(intervalueconfidence)
data$expert <- 1:nrow(data)
head(data) # First registers
  lowerlimit upperlimit expert
1   9.448389   9.866528      1
2   9.453292   9.854766      2
3   9.506061   9.898223      3
4   9.530339   9.927784      4
5   9.531700   9.932503      5
6   9.546686   9.935253      6

Al ordenar los resultados de los expertos, comprobamos que varios de ellos han proporcionado intervalos de confianza que no contienen la verdadera media poblacional, \(\mu=10\). Surge la duda de si estos laboratorios utilizan aparatos defectuosos.

## Percentage of laboratories with suspicious results
(fail <- round(100*sum(mu < data$lowerlimit | mu>data$upperlimit)/nrow(data),1))
[1] 4.7

El porcentaje de laboratorios que han facilitado un intervalo de confianza que no contiene la media poblacional asciende al 4.7% , por debajo del nivel de significación del 5%. Por lo tanto, no existen motivos para sospechar que algún laboratorio cuente con instrumentos mal calibrados.

De hecho, si revisa el código R, comprobará que todos los laboratorios han obtenido los datos de la misma distribución normal: la mayoría ha acertado, mientras que unos pocos han fallado.

Lo importante de estos experimentos reside en cuantificar el nivel de incertidumbre o error que esperamos: ¡Caprichos del azar!