Função de distribuição empírica

Começamos com o problema de estimar uma função de distribuição acumulada. Seja \[ X_1,\cdots, X_n \] uma amostra aleatória de \(F\); escrevemos \(X_1,\cdots, X_n\sim F\) onde \(F(x) = P(X\leq x)\) é uma função de distribuição na reta real. Estimamos \(F\) com a função de distribuição empírica.

A função de distribuição empírica \(\widehat{F}_n\) é a função de distribuição que coloca peso \(1/n\) em cada ponto de dados \(X_i\). Formalmente, \[ \widehat{F}_n(x) = \dfrac{1}{n}\sum_{i=1}^n \pmb{I}(X_i\leq x), \] para \(x\in\mathbb{R}\), sendo que \[ \pmb{I}(x)=\left\{ \begin{array}{lc} 1, & \mbox{se } X_i\leq x \\ 0, & \mbox{se } X_i > x\end{array}\right.\cdot \]

<br<

Exemplo 1: Dados do nervo.

Cox and Lewis (1966) relataram 799 tempos de espera entre pulsos sucessivos ao longo de uma fibra nervosa. A figura abaixo mostra os dados e a função de distribuição empírica \(\widehat{F}_n\).

nervo = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/nerve.dat", header = FALSE) 
head(nervo)

##     V1
## 1 0.21
## 2 0.03
## 3 0.05
## 4 0.11
## 5 0.59
## 6 0.06

n = length(nervo$V1)
n

## [1] 799

O seguinte exemplo mostra como obtermos a função de distribuição acumulada estimada ou empírica no R.

Fn = ecdf(nervo$V1)
par(mar=c(4,4,1,1))
plot(Fn, verticals = TRUE, do.points = FALSE, lwd = 2, 
     main = "Função de distribuição acumulada")
rug(nervo$V1)
grid()

FIGURA 1: Dados de uma fibra nervosa. Cada linha vertical representa um ponto de dados. A linha sólida é a função de distribuição empírica.

O teorema a seguir fornece algumas propriedades de \(\widehat{F}_n\)

Teorema 1.

Seja \((_1,\cdots,X_n\) uma amostra aleatória da distribuição \(F\) e seja \(\widehat{F}_n\) a função de distribuição empírica. Então

Para qualquer valor fixo \(x\in\mathbb{R}\), \[ \mbox{E}\Big(\widehat{F}_n(x) \Big)=F(x) \qquad \mbox{e} \qquad \mbox{Var}\Big(\widehat{F}_n(x) \Big)=\dfrac{F(x)(1-F(x))}{n}\cdot \] Isto significa que \(\widehat{F}_n(x)\) é consistente para \(F(x)\).
Teorema de Glivenco-Cantelli \[ \sup_x |\widehat{F}_n(x)-F(x) | \to 0, \quad \mbox{quase certamente}\cdot \]
Teorema desigualdade de Dvoretzky-Kiefer-Wolfowitz \[ P\left( \sup_x |\widehat{F}_n(x)-F(x) |>\epsilon_n\right) \leq 2\mbox{e}^{-2n\epsilon_n^2}\quad \mbox{para algum } \epsilon_n>0\cdot \]

Demonstração.

Dvoretzky, Kiefer and Wolfowitz em 1956 demonstraram que existe uma constante finita \(C\) para a qual, qualquer seja \(n\) e \(\epsilon_n>0\) se satisfaz a desigualdade mostrada acima no item 3 do teorema. Posteriormente, Massart em 1990 provou que se \(C=2\) a desigualdade de DKW ainda é válidade, chamdo-se então de desigualdade DKWM. É essa a forma moderna da desigualdade apresentada ponto 3 do teorema acima.

A partir da desigualdade de Dvoretzky-Kiefer-Wolfowitz-Massart, podemos construir um conjunto de confiança. Seja \[ \epsilon^2_n = \dfrac{1}{2n}\log\left(\dfrac{2}{\alpha}\right)\cdot \] Então \[ 2\mbox{e}^{-2n\epsilon_n^2}=2\exp\left(-2n\frac{1}{2n}\log\left(\frac{2}{\alpha}\right)\right)=\alpha, \] significa \(\alpha\) é que a probabilidade do evento \[ \{x\in\mathbb{R} : |\widehat{F}_n(x)-F(x)|>\epsilon_n\} \] acontecer, ou seja, \(\alpha\) é a probabilidade das funções \(\widehat{F}_n(x)\) e \(F(x)\) serem diferentes. Isso é o que afirma a desigualdade de Dvoretzky-Kiefer-Wolfowitz para o \(\epsilon_n²\) escolhido.

Portano, \(1-\alpha\) é a probabilidade do evento acima não acontecer, ou seja, \(1-\alpha\) é a probabilidade das funções \(\widehat{F}_n(x)\) e \(F(x)\) serem aproximadas. Neste conjuno, isto é, no conjunto dos \(xin\mathbb{R}\) para os quais as funções \(\widehat{F}_n(x)\) e \(F(x)\) são aproximadamente iguais, escolhemos o intervlo confiança para \(F(x)\) da seguinte forma: \[ \begin{array}{ccc} & |\widehat{F}_n(x)-F(x)| & < \epsilon_n \\ -\epsilon_n < & F(x) - \widehat{F}_n(x) & < \epsilon_n \\ \end{array} \] do qual obtemos que se \(L(x) = \max\{\widehat{F}_n(x) - \epsilon_n, 0\}\) e \(U(x) = \min\{\widehat{F}_n(x) + \epsilon_n, 1\}\) segue do, para qualquer \(F\), \[ P\Big( L(x)\leq F(x)\leq U(x) \quad \forall x\in\mathbb{R}\Big) \geq 1-\alpha\cdot \]

Assim, \(\big(L(x), U(x)\big)\) é uma faixa de confiança não paramétrica para \(F(x)\), com coeficiente de confiança \(1-\alpha\).

Exemplo 2: Intervalo de confiança.

Queremos obter uma banda de confiança para \(\widehat{F}_n\) com nível de confiança \(\alpha=0.05\). Para isto utilizaremos a desigualdade DKW, no Teorema 1.

Observemos que \[ \epsilon = \sqrt{\frac{1}{2n}\log\big( \frac{2}{0.05}\big)} = 0.048\cdot \]

Encontremos os limites do intervalo de confiança.

epsilon = sqrt(1/(2*n)*log(2/0.05))
epsilon

## [1] 0.04804618

ls(environment(Fn))

## [1] "f"      "method" "na.rm"  "nobs"   "x"      "y"      "yleft"  "yright"

y = get("y",environment(Fn))
x = get("x",environment(Fn))
L = ifelse(y-epsilon<0,0,y-epsilon)
U = ifelse(y+epsilon>1,1,y+epsilon)

Mostrando o gráfico resultante, ou seja, a função de distribuição empírica e a banda de confiança.

par(mar=c(4,4,1,1))
plot(Fn, verticals = TRUE, do.points = FALSE, lwd = 2, 
     main = "Função de distribuição acumulada")
lines(knots(Fn),L,type="b",pch=19,cex=0.3, col="red")
lines(knots(Fn),U,type="b",pch=19,cex=0.3, col="red")
rug(nervo$V1)
grid()

FIGURA 2: Dados de uma fibra nervosa. Cada linha vertical representa um ponto de dados. A linha sólida é a função de distribuição empírica. As linhas acima e abaixo da linha média representam uma faixa de confiança de 95%.

Exercícios

Gere 100 observações a partir de uma distribuição \(N(0,1)\). Calcule uma faixa de confiança de 95% para a função de distribuição empírica \(\widehat{F}_n\). Repita isso 1000 vezes e veja com que frequência a faixa de confiança contém a verdadeira função de distribuição. Repita usando dados de uma distribuição Cauchy.
Seja \(X_1,\cdots, X_n\) uma amostra aleatória da distribuição \(F\) e seja \(\widehat{F}_n\) a função de distribuição empírica. Para um \(x\) fixo, encontre a distribuição limite de \(\sqrt{\widehat{F}_n(x)}\).
Sejam \(x\) e \(y\) dois pontos distintos. Encontre \(\mbox{Cov}\Big(\widehat{F}_n(x),\widehat{F}_n(y)\Big)\).

Função de distribuição empírica

Fernando Lucambio Pérez

2024-03-09

Exemplo 1: Dados do nervo.

Teorema 1.

Exemplo 2: Intervalo de confiança.

Exercícios