Este artigo trata da estimação de funções de distribuição, que é um tópico muito importante em estatística. A seguir, define-se a estimação da função de distribuição e explica-se a importância do tema.

O que é a estimação da função de distribuição? O cenário é o seguinte: temos uma sequência infinita de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) \(X_1,X_2,\cdots\) que têm uma função de distribuição desconhecida \(F\). Agora, a tarefa é estimar \(F\), dada uma amostra aleatória finita \(X_1,\cdots,X_n\sim F\), \(n\in\mathbb{N}\).

No caso da estimação de funções de distribuição paramétricas, a estrutura do modelo está definida antes de se conhecerem os dados. Sabe-se, por exemplo, que a distribuição será da forma \(N(\mu,\sigma^2)\). O único objetivo é estimar os parâmetros, neste caso \(\mu\) e \(\sigma^2\). Em comparação com isto, no cenário não paramétrico, a estrutura do modelo não é especificada a priori mas é determinada apenas pela amostra. Aqui, todos os estimadores considerados são do tipo não-paramétrico.

Porque é que a estimação da função de distribuição é importante? O objetivo é investigar as propriedades de uma amostra aleatória e a sua distribuição. Como as variáveis aleatórias são i.i.d., consideramos aqui as propriedades de \(X_1\) sem perda de generalidade.

Uma propriedade da distribuição é o cálculo da probabilidade \(P(a\leq X_1\leq b) = F(b)-F(a)\), que pode ser diretamente estimada sem necessidade de integração como no caso da estimatição da densidade. Tomando o inverso de \(F\) é também possível calcular os quantis \[ x_p =\inf\{x\in\mathbb{R} \, : \, p\leq F(x)\} = F^{-1}(p)\cdot \]

Outra aplicação da inversa de \(F\) é a chamada amostragem por transformada inversa (ITS). Esta pode ser usada para gerar mais amostras do que as já fornecidas. A ideia é usar a expressão \[ Y\sim U[0,1], \quad \mbox{ o qual implica que} \quad F^{-1}_{X_1}(Y)\sim X_1\cdot \]

A intuição do ITS é mostrada na Figura 1: Dado um número aleatório \(r\in [0,1]\) que corresponde a \(Y\), o número \(F^{-1}_{X_1}(r)\), correspondente a \(F^{-1}_{X_1}(Y)\), é a nova amostra.

Figura 1: Ilustração da amostragem por transformada inversa.

Sobre esta artigo. Dois estimadores de funções de distribuição muito famosos são a função de densidade empírica (EDF) e o estimador de kernel. No entanto, existem muitos outros estimadores que têm um desempenho melhor do que estes dois. Alguns deles são discutidos. O objetivo é obter as propriedades dos estimadores considerados e compará-los teoricamente e em simulações.

Uma contribuição deste artigo é o estimador de Szasz que, tanto quanto sabemos, é uma nova maneira de estimar funções de distribuição em \([0,\infty)\). Outra contribuição é que várias propriedades dos estimadores apresentados não foram provadas antes, como a normalidade assintótica dos estimadores de Hermite.

1 Os diferentes estimadores


A primeira e mais óbvia diferença entre os estimadores é o fato de todos eles serem definidos em diferentes domínios. Este fato é ilustrado na Figura 2. O estimador de Bernstein, por exemplo, só pode estimar distribuições com suporte em [0,1], enquanto o estimador de Szasz e o estimador de Hermite na semi-reta real podem estimar distribuições com suporte em \([0,\infty)\). Estes domínios são, naturalmente, normalizados.

Figura 2: Os diferentes intervalos dos estimadores na reta real.

Uma distribuição em \([a,b]\), \(a<b\), pode ser facilmente transformada para o intervalo unitário para que o estimador de Bernstein possa ser aplicado. Além disso, uma distribuição em \([-a,\infty)\), \(a>0\), pode ser deslocada para a linha positiva. No entanto, não é possível transformar uma distribuição em \([0,\infty)\) para o intervalo unitário sem perder algumas propriedades importantes. Os estimadores de Bernstein, Szasz e ambos os estimadores de Hermite são especificamente concebidos para os seus respectivos intervalos.

A função de densidade empírica (EDF) e o estimador de kernel servem de comparação. Considera que \[ \{\mbox{Distribuições em } [0,1]\} \subset \{\mbox{Distribuições em } [0,\infty)\} \subset \{\mbox{Distribuições em } (-\infty,\infty)\}, \] o que significa que as distribuições em que o estimador de Bernstein pode ser aplicado são um subconjunto daquelas em que o estimador de Szasz pode ser aplicado e assim por diante. Todos os estimadores utilizam abordagens diferentes para estimar a função de distribuição.

2 Distribuição empírica


A função de distribuição empírica (FDE) é a forma mais simples de estimar a função de distribuição verdadeira, dada uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\). A ideia é usar a lei forte dos grandes números. Então, o estimador é definido por \[ \widehat{F}_n(x)=\dfrac{1}{n}\sum_{i=1}^n \pmb{1}(X_i\leq x), \] onde \(\pmb{1}\) é a função indicadora. O estimador é ilustrado na Figura 3 para \(n = 20\) e \(n = 50\).

par(mfrow=c(1,2),cex=0.8,mar=c(4,4,1,1))
set.seed(465)
dados = rbeta(20,0.5,1)
plot(ecdf(dados), xlim=c(0,1), col="red",main="");rug(dados);grid()
x = seq(0,1,by=0.01)
curve(pbeta(x,0.5,1),add=TRUE)
legend(0.4,0.4,legend=c("Estimador","Distribuição F"),fill=c("red","black"))
dados = rbeta(50,0.5,1)
plot(ecdf(dados), xlim=c(0,1), col="red",main="");rug(dados);grid()
x = seq(0,1,by=0.01)
curve(pbeta(x,0.5,1),add=TRUE)
legend(0.4,0.4,legend=c("Estimador","Distribuição F"),fill=c("red","black"))

Figura 3: Ilustração da função de distribuição empírica (FDE) com \(n=20\) e \(n=50\).

O teorema de Glivenko-Cantelli garante a convergência uniforme e quase certa deste estimador. Na sequência, são apresentadas algumas propriedades importantes deste estimador. O teorema seguinte decorre diretamente do teorema do limite central.


Exemplo 1: Dados do nervo.
Cox and Lewis (1966) relataram 799 tempos de espera entre pulsos sucessivos ao longo de uma fibra nervosa. A figura abaixo mostra os dados e a função de distribuição empírica \(\widehat{F}_n\).

nervo = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/nerve.dat", header = FALSE) 
head(nervo)
##     V1
## 1 0.21
## 2 0.03
## 3 0.05
## 4 0.11
## 5 0.59
## 6 0.06
n = length(nervo$V1)
n
## [1] 799


O seguinte exemplo mostra como obtermos a função de distribuição acumulada estimada ou empírica no R.

Fn = ecdf(nervo$V1)
par(mar=c(4,4,1,1))
plot(Fn, verticals = TRUE, do.points = FALSE, lwd = 2, 
     main = "Função de distribuição acumulada")
rug(nervo$V1)
grid()

Figura 1: Dados de uma fibra nervosa. Cada linha vertical representa um ponto de dados. A linha sólida é a função de distribuição empírica.


O teorema a seguir fornece algumas propriedades de \(\widehat{F}_n\)


Teorema 1:

Seja \(X_1,\cdots,X_n\) uma amostra aleatória da distribuição \(F\) e seja \(\widehat{F}_n\) a função de distribuição empírica. Então

  1. Para qualquer valor fixo \(x\in\mathbb{R}\), \[ \mbox{E}\Big(\widehat{F}_n(x) \Big)=F(x) \qquad \mbox{e} \qquad \mbox{Var}\Big(\widehat{F}_n(x) \Big)=\dfrac{F(x)(1-F(x))}{n}\cdot \] Isto significa que \(\widehat{F}_n(x)\) é consistente para \(F(x)\).
  2. Teorema de Glivenco-Cantelli \[ \sup_x |\widehat{F}_n(x)-F(x) | \to 0, \quad \mbox{quase certamente}\cdot \]
  3. Teorema desigualdade de Dvoretzky-Kiefer-Wolfowitz \[ P\left( \sup_x |\widehat{F}_n(x)-F(x) |>\epsilon_n\right) \leq 2\mbox{e}^{-2n\epsilon_n^2}\quad \mbox{para algum } \epsilon_n>0\cdot \]


Demonstração. Derivação direta do Teorema Central do Limite.



Dvoretzky, Kiefer and Wolfowitz em 1956 demonstraram que existe uma constante finita \(C\) para a qual, qualquer seja \(n\) e \(\epsilon_n>0\) se satisfaz a desigualdade mostrada acima no item 3 do teorema. Posteriormente, Massart em 1990 provou que se \(C=2\) a desigualdade de DKW ainda é válidade, chamdo-se então de desigualdade DKWM. É essa a forma moderna da desigualdade apresentada ponto 3 do teorema acima.

A partir da desigualdade de Dvoretzky-Kiefer-Wolfowitz-Massart, podemos construir um conjunto de confiança. Seja \[ \epsilon^2_n = \dfrac{1}{2n}\log\left(\dfrac{2}{\alpha}\right)\cdot \] Então \[ 2\mbox{e}^{-2n\epsilon_n^2}=2\exp\left(-2n\frac{1}{2n}\log\left(\frac{2}{\alpha}\right)\right)=\alpha, \] significa \(\alpha\) é que a probabilidade do evento \[ \{x\in\mathbb{R} : |\widehat{F}_n(x)-F(x)|>\epsilon_n\} \] acontecer, ou seja, \(\alpha\) é a probabilidade das funções \(\widehat{F}_n(x)\) e \(F(x)\) serem diferentes. Isso é o que afirma a desigualdade de Dvoretzky-Kiefer-Wolfowitz para o \(\epsilon_n²\) escolhido.

Portano, \(1-\alpha\) é a probabilidade do evento acima não acontecer, ou seja, \(1-\alpha\) é a probabilidade das funções \(\widehat{F}_n(x)\) e \(F(x)\) serem aproximadas. Neste conjuno, isto é, no conjunto dos \(xin\mathbb{R}\) para os quais as funções \(\widehat{F}_n(x)\) e \(F(x)\) são aproximadamente iguais, escolhemos o intervlo confiança para \(F(x)\) da seguinte forma: \[ \begin{array}{ccc} & |\widehat{F}_n(x)-F(x)| & < \epsilon_n \\ -\epsilon_n < & F(x) - \widehat{F}_n(x) & < \epsilon_n \\ \end{array} \] do qual obtemos que se \(L(x) = \max\{\widehat{F}_n(x) - \epsilon_n, 0\}\) e \(U(x) = \min\{\widehat{F}_n(x) + \epsilon_n, 1\}\) segue do, para qualquer \(F\), \[ P\Big( L(x)\leq F(x)\leq U(x) \quad \forall x\in\mathbb{R}\Big) \geq 1-\alpha\cdot \]

Assim, \(\big(L(x), U(x)\big)\) é uma faixa de confiança não paramétrica para \(F(x)\), com coeficiente de confiança \(1-\alpha\).


Exemplo 2: Intervalo de confiança.

Queremos obter uma banda de confiança para \(\widehat{F}_n\) com nível de confiança \(\alpha=0.05\). Para isto utilizaremos a desigualdade DKW, no Teorema 1.

Observemos que \[ \epsilon = \sqrt{\frac{1}{2n}\log\big( \frac{2}{0.05}\big)} = 0.048\cdot \]

Encontremos os limites do intervalo de confiança.

epsilon = sqrt(1/(2*n)*log(2/0.05))
epsilon
## [1] 0.04804618
ls(environment(Fn))
## [1] "f"      "method" "na.rm"  "nobs"   "x"      "y"      "yleft"  "yright"
y = get("y",environment(Fn))
x = get("x",environment(Fn))
L = ifelse(y-epsilon<0,0,y-epsilon)
U = ifelse(y+epsilon>1,1,y+epsilon)

Mostrando o gráfico resultante, ou seja, a função de distribuição empírica e a banda de confiança.

par(mar=c(4,4,1,1))
plot(Fn, verticals = TRUE, do.points = FALSE, lwd = 2, 
     main = "Função de distribuição acumulada")
lines(knots(Fn),L,type="b",pch=19,cex=0.3, col="red")
lines(knots(Fn),U,type="b",pch=19,cex=0.3, col="red")
rug(nervo$V1)
grid()

Figura 2: Dados de uma fibra nervosa. Cada linha vertical representa um ponto de dados. A linha sólida é a função de distribuição empírica. As linhas acima e abaixo da linha média representam uma faixa de confiança de 95%.


3 Estimação kernel


Um dos estimadores de densidade mais populares é o estimador de densidade kernel. Este estimador também é chamado de estimador Parzen-Rosenblatt em homenagem aos dois inventores/desenvolvedores Emanuel Parzen e Murray Rosenblatt que independentemente tiveram a ideia, veja (Rosenblatt 1956; Parzen 1962).

Ele usa um kernel \(K:\mathbb{R}\to\mathbb{R}\) que tem que cumprir as propriedades
  1. \(\int K(x)\mbox{d}x=1\),
  2. \(K(x)\geq 0\) para todo \(x\),
  3. \(K(x)=K(-x)\) para todo \(x\),
  4. \(\int xK(x)\mbox{d}x=0\) e
  5. \(\int x^2 K(x)\mbox{d}x<\infty\),

seguindo Gramacki (2018).

Isso significa que o kernel é uma função de densidade simétrica com média zero e variância limitada. Alguns kernels populares são
  1. kernel Normal/Gaussiano: \(K(x)=(2\pi)^{-1/2} \exp\big(-\frac{1}{2}x^2 \big)\)
  2. kernel Epanechnikov: \(K(x)=\frac{3}{4}(1-x^2)\pmb{1}_{(|x|\leq 1)}\)

Sejam \(X_1,X_2,\cdots\) variáveis aleatórias i.i.d. que têm uma função de distribuição desconhecida subjacente \(F\) e uma função de densidade desconhecida \(f\). Dada uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\), o estimador de densidade de kernel univariado é definido por \[ f_{h,n}(x)=\dfrac{1}{nh}\sum_{i=1}^n K\Big(\dfrac{x-X_i}{h} \Big), \qquad x\in\mathbb{R}, \] onde o parâmetro \(h\in\mathbb{R}_{>0}\) é chamado de largura de banda. Na Figura 4, o estimador é ilustrado.

Figura 4: Ilustração do estimador de densidade do kernel.

A ideia é que o número de kernels seja maior em regiões com muitas amostras, o que leva a uma densidade maior. A largura e a altura de cada kernel são determinadas pela largura de banda \(h\). Nesse caso, a largura de banda é a mesma para todos os kernels.

Para estimar a função de distribuição, o estimador de densidade do kernel é integrado. Isso significa que se a função de distribuição for da forma \[ F(x)=\int_{-\infty}^x f(u)\mbox{d}u \] para uma função de densidade \(f\), o estimador de distribuição do kernel é da forma \[ F_{h,n}(x)=\int_{-\infty}^x f_{h,n}(u)\mbox{d}u=\int_{-\infty}^x \dfrac{1}{nh}\sum_{i=1}^n K\Big(\dfrac{u-X_i}{h} \Big)\mbox{d}u=\dfrac{1}{n}\sum_{i=1}^n \mathbb{K}\Big(\dfrac{x-X_i}{h} \Big) \] onde \[ \mathbb{K}(t)=\int_{-\infty}^t K(u)\mbox{d}u \] é uma função kernel acumulada.

Este estimador foi introduzido pela primeira vez em Yamato (1973). Na Figura 5, os kernels integrados \(\frac{1}{n}\mathbb{K}\big((x-X_i)/h\big)\) que somam o estimador (vermelho) são ilustrados em azul.

Figura 5: Ilustração do estimador de densidade do kernel.

Para o estimador de distribuição kernel e o estimador de densidade kernel é declarado em Kim et al. (2006) e Shalizi (2009), respectivamente que a média e o viés são \(o(h^2)\). A variância do estimador de densidade é \(O(1/(nh))\) e do estimador de distribuição \(O(n^{−1})+O(h/n) = O(n^{−1})\).

O estimador de distribuição kernel funciona bem quando a densidade tem suporte em \((-\infty,+\infty)\). Quando o suporte é finito, podem surgir problemas nas fronteiras. Em Zhang, Li, e Zhang (2020), é mostrado que o viés na fronteira é \(O(h)\), que é pior do que \(O(h^2)\). Esta é a razão pela qual outras abordagens, como o estimador de Bernstein, são usadas para estimar funções de distribuição em intervalos limitados.

Agora declaramos as propriedades mais importantes do estimador de kernel. A primeira propriedade é o comportamento assintótico.

3.1 Comportamento assintótico


O próximo resultado segue de Watson e Leadbetter (1964). Na verdade, ele é válido até mesmo para um caso mais geral do que os estimadores de kernel.


Teorema 2:

Vale para \(x\) com \(0 < F(x) < 1\) que \[ n^{1/2}\Big(F_{h,n}(x)-\mbox{E}\big(F_{h,n}(x)\big) \Big) \xrightarrow{D} N\big(0,\sigma^2(x)\big), \] para \(n\to\infty\), onde \(\sigma^2(x)=F(x)\big(1-F(x)\big)\).


Demonstração. Derivação direta do Teorema Central do Limite.



Também é possível considerar o comportamento assintótico de \(n^{1/2}\big(F_{h,n}(x)-F(x)\big)\). Conforme mostrado em Zhang, Li, e Zhang (2020), eles sustentam que \[ \begin{array}{rcl} n^{1/2}\big(F_{h,n}(x)-F(x)\big) & = & n^{1/2}\Big(F_{h,n}(x)-\mbox{E}\big(F_{h,n}(x)\big)\Big)+n^{1/2}\Big(\mbox{E}\big(F_{h,n}(x)\big)-F(x)\Big) \\[0.8em] & = & n^{1/2}\Big(F_{h,n}(x)-\mbox{E}\big(F_{h,n}(x)\big)\Big)+n^{1/2}\Big(\frac{1}{2}h^2 f'(x)\mu_2 +o(h^2)\Big) \\[0.8em] & = & n^{1/2}\Big(F_{h,n}(x)-\mbox{E}\big(F_{h,n}(x)\big)\Big)+\frac{1}{2}h^2n^{1/2}f'(x)\mu_2+o(h² n^{1/2}), \end{array} \] onde \[ \mu_2=\int_\mathcal{D} t^2K(t)\mbox{d}t \] e as propriedades necessárias de \(K\) são definidas como no começo desta seção. Novamente, integramos sobre o domínio considerado \(\mathcal{D}\). Usando esta equação, o próximo corolário segue diretamente.


Corolário 1:

Seja \(n\to\infty\) e \(h\to 0\). Então, para \(x\) com \(0 < F(x) < 1\) e suporte \([-1,1]\) de \(K\) segue que

  1. se \(h^{-2}n^{-1/2}\to\infty\), temos \[ n^{1/2}\big(F_{h,n}(x)-F(x)\big) \xrightarrow{D} N\big(0,\sigma^2(x)\big), \]

  2. se \(h^{-2}n^{-1/2}\to c\), onde \(c\) é uma constante positiva, temos \[ n^{1/2}\big(F_{h,n}(x)-F(x)\big) \xrightarrow{D} N\Big(\frac{\mu_2}{2c}f'(x),\sigma^2(x)\Big), \] onde \(\sigma^2(x)=F(x)\big(1-F(x)\big)\).


Demonstração. Derivação direta do Teorema Central do Limite e demonstração acima.



Para a normalidade assintótica da diferença para a média, não são necessárias restrições na largura de banda \(h\), enquanto para o comportamento com relação a \(F\) há restrições em \(h\). Em seguida, o \(h\) assintoticamente ótimo com relação ao Erro Quadrático Médio \((\mbox{MSE})\) é calculado.

3.1.1 \(h\) assintoticamente ótimo com relação ao \(\mbox{MSE}\)


O próximo resultado segue de Zhang, Li, e Zhang (2020) e fornece o \(\mbox{MSE}\) do estimador de distribuição do kernel.


Teorema 3:

O \(\mbox{MSE}\) do estimador de distribuição do kernel é da forma \[ \mbox{MSE}\big(F_{h,n}(x)\big) = n^{-1}\sigma^2(x)-hn^{-1}\eta f(x)+h^4\nu(x)+o(h^4)+O(h/n), \] onde \[ \eta=2\int_\mathcal{D} x K(x)\mathbb{K}(x)\mbox{d}x \qquad \mbox{e} \qquad \nu(x)=\Big(\frac{1}{2}f'(x)\int_\mathbb{D} t^2 K(t)\mbox{d}t \Big)^2, \] e \(K\) e \(\mathbb{K}\) foram definidas na Seção 3.


Demonstração. Ver Zhang, Li, e Zhang (2020).



Para minimizar o \(\mbox{MSE}\), tomamos a derivada em relação a \(h\) e obtemos assintoticamente \[ \dfrac{\partial}{\partial h}\mbox{MSE}\big( F_{h,n}(x)\big) = 4\nu(x)h^3-n^{-1}\eta f(x)\cdot \] Ajustando isso para zero, obtemos de \[ 4\nu(x)h^3-n^{-1}\eta f(x) = 0 \] que \[ h=n^{-1/3}\left( \dfrac{\eta f(x)}{4\nu(x)}\right)^{1/3}\cdot \] Isso leva ao seguinte corolário.


Corolário 2:

Supondo que \(f(x)\neq 0\) e \(f'(x)\neq 0\), o \(h\) assintoticamente ótimo para estimar \(F(x)\) em relação ao \(\mbox{MSE}\) é \[ \widehat{h}=n^{-1/3}\left( \dfrac{\eta f(x)}{4\nu(x)}\right)^{1/3}\cdot \] Isso dá \[ \mbox{MSE}\big(\widehat{F}_{\widehat{h},n}(x) \big)=n^{-1}\sigma^2(x)-\frac{3}{4}n^{-4/3}\left( \dfrac{\big(\eta f(x)\big)^4}{4\nu(x)}\right)^{1/3}+O(n^{-4/3}), \] o \(\mbox{MSE}\) ideal.


Demonstração. Ver Zhang, Li, e Zhang (2020).



O mesmo é feito na próxima seção para o errao quadrático médio integral (\(\mbox{MISE}\)) em vez do \(\mbox{MSE}\).

3.1.2 \(h\) assintoticamente ótimo com relação ao \(\mbox{MISE}\)


Para o estimador de distribuição do kernel \(F_{h,n}\), o \(\mbox{MISE}\) é definido como \[ \mbox{MISE}\big(F_{h,n}\big) = \mbox{E}\left(\int_\mathcal{D}\Big(F_{h,n}(x)-F(x) \Big)^2\mbox{d}x \right), \] onde integramos sobre o domínio considerado \(\mathcal{D}\).

O seguinte resultado sobre o \(\mbox{MISE}\) de um estimador de kernel pode ser encontrado em Zhang, Li, e Zhang (2020), Watson e Leadbetter (1964), Azzalini (1981).


Teorema 4:

Se sustenta que \[ \mbox{MISE}\big(F_{h,n}\big)=n^{-1}\int_\mathbb{D} \sigma^2(x)\mbox{d}x -n^{-1}h\eta+\frac{1}{4}h^4\mu_2^2r_F+o(h^4)+O(h/n), \] onde \[ \eta=2\int_\mathbb{D}xK(x)\mathbb{K}(x)\mbox{d}x, \qquad r_F=\int_\mathbb{D}\big(f'(x) \big)^2\mbox{d}x, \quad \mu_2=\int_\mathbb{D} t^2K(t)\mbox{d}t \] e \(\sigma^2(x)=F(x)\big(1-F(x)\big)\).


Demonstração. Ver Zhang, Li, e Zhang (2020).



Como antes, para minimizar o \(\mbox{MISE}\), tomamos a derivada em relação a \(h\) e obtemos assintoticamente \[ \dfrac{\partial}{\partial h}\mbox{MISE}\big(F_{h,n}\big)=h^3 \mu_2^2r_F -n^{-1}\eta\cdot \] Definir isso como zero leva a \[ h=n^{-1/3}\left(\dfrac{\eta}{r_F\mu_2^2} \right)^{1/3}\cdot \] Com este resultado, o seguinte corolário é trivial.


Corolário 3:

Segue-se que o \(h\), assintoticamente ótimo, para estimar \(F\) em relação ao \(\mbox{MISE}\) é \[ h_\mbox{ótimo}=n^{-1/3}\left(\dfrac{\eta}{r_F\mu_2^2} \right)^{1/3}, \] o que leva à expressão assintótica \[ \mbox{MISE}\big(\widehat{F}_{h,n}\big)=n^{-1}\int_\mathbb{D}\sigma^2(x)\mbox{d}x-\frac{3}{4}n^{-4/3}\left(\dfrac{\alpha^4}{r_F} \right)^{1/3}=O(n^{-4/3}), \] onde \(\alpha=\eta/\mu_2^{1/2}\) e \(\sigma^2(x)=F(x)\big(1-F(x)\big)\).


Demonstração. Ver Zhang, Li, e Zhang (2020).




Exemplo 3: Estimação kernel da densidade e da distribuição para dados com diferentes suportes: \(\mathbb{R}\), \(\mathbb{R}_+\) e (0,1).

A estimação kernel da densidade (PDF) e a estimação kernel da função de distribuição (KDE) são ferramentas poderosas para estudar o comportamente de amostras sem suposições de modelo.

Os códigos R a seguir mostram a implementação de estimadores kernel de densidade e da distribuição para dados com suporte em \(\mathbb{R}\), \(\mathbb{R}_+\) e (0,1) usando uma abordagem de transformação. Isto é, os dados em \(\mathbb{R}\) são ajustados diretamente; os dados em \(\mathbb{R}_+\) são ajustados na escala logarítmica e os dados em (0,1) são ajustados na escala logit.

# Logit function
logit <- Vectorize(function(p) log(p) - log(1-p))

######################################################################################################
# Kernel density estimator (PDF)
######################################################################################################
# x:    vector of quantiles
# h:    smoothing parameter (bandwidth)
# data: data set

# Function
kde.dnorm <- function(x,h,data) mean( dnorm( x-data, 0, h ) )

Exemplo utilizando dados simulados com suporte em \(\mathbb{R}\).

# x:    vetor de quantis
# h:    parámetro de alisamento (bandwidth)
# data: dados

set.seed(123)
sim.data <- c(rnorm(250,-1,0.5),rnorm(250,1,0.5)) # dados simulados
h0 <- bw.nrd0(sim.data)
kde.dfit <- Vectorize(function(x) kde.dnorm(x,h0,sim.data))
par(mfrow=c(1,2),mar=c(4,4,2,1))
hist(sim.data,probability = T, breaks=10,ylim=c(0,0.5), cex.main=0.9,
     xlab="Dados",ylab="Densidade", main="Histograma vs \n Estimador kernel de densidade",
     cex.axis=1,cex.lab=1)
curve(kde.dfit,-3,3,lwd=1,col="blue",add=T,n=1000)
grid();box()

######################################################################################################
# Kernel distribution estimator (KDE)
######################################################################################################

# Function
kde.pnorm <- function(x,h,data) mean( pnorm( x-data, 0, h ) )

h1 <- kerdiest::ALbw(type_kernel = "n", vec_data = sim.data) # Bandwith for CDF
kde.pfit <- Vectorize(function(x) kde.pnorm(x,h1,sim.data))
plot(ecdf(sim.data),ylim=c(0,1), lwd=1, col="red", cex.main=0.9,
     xlab="Dados",ylab="Distribuição", cex.axis=1,cex.lab=1,cex=0.3,
     main="Distribuição empírica vs \n Estimador kernel da distribuição")
curve(kde.pfit,-3,3,lwd=1,col="blue",add=T,n=1000)
grid();box()

Exemplo utilizando dados simulados com suporte em \(\mathbb{R}_+\).

#---------------------------------------------
# Logarithmic transformation of the data
#---------------------------------------------
set.seed(123)
sim.data <- rlnorm(1000,0,0.5) # Simulated data
h0 <- bw.nrd0(log(sim.data))
# Transformed KDE
kde.dfit <- Vectorize(function(x) kde.dnorm(log(x),h0,log(sim.data))/x)
par(mfrow=c(1,2),mar=c(4,4,2,1))
hist(sim.data,probability = T, breaks=30,ylim=c(0,1), cex.main=0.9,
     xlab="Dados",ylab="Densidade", main="Histograma vs \n Transformed KDE",cex.axis=1,cex.lab=1)
curve(kde.dfit,0,5,lwd=3,col="blue",add=T,n=1000)
grid();box()

h1 <- kerdiest::ALbw(type_kernel = "n", vec_data = log(sim.data)) # Bandwith for CDF
# Transformed KDE
kde.pfit <- Vectorize(function(x) kde.pnorm(log(x),h0,log(sim.data)))
plot(ecdf(sim.data),ylim=c(0,1), lwd=3,cex.main=0.9,cex=0.3,
     xlab="Dados",ylab="Distribuição", cex.axis=1,cex.lab=1, col="red",
     main="Distribuição empírica vs \n Estimador kernel da distribuição")
curve(kde.pfit,0,6,lwd=3,col="blue",add=T,n=1000)
grid();box()

Exemplo utilizando dados simulados com suporte em \((0,1)\).

#---------------------------------------------
# Logit transformation of the data
#---------------------------------------------
set.seed(123)
sim.data <- rbeta(1000,3,3) # Simulated data
h0 <- bw.nrd0(logit(sim.data))
# Transformed KDE
kde.dfit <- Vectorize(function(x) kde.dnorm(logit(x),h0,logit(sim.data))/(x*(1-x)))
par(mfrow=c(1,2),mar=c(4,4,2,1))
hist(sim.data,probability = T, breaks=30,ylim=c(0,2.5), cex.main=0.9, 
     xlab="Dados",ylab="Densidade", 
     main="Histograma vs \n Transformed KDE",cex.axis=1,cex.lab=1)
curve(kde.dfit,0,1,lwd=3,col="blue",add=T,n=1000)
grid();box()

h1 <- kerdiest::ALbw(type_kernel = "n", vec_data = logit(sim.data)) # Bandwith for CDF
# Transformed KDE
kde.pfit <- Vectorize(function(x) kde.pnorm(logit(x),h0,logit(sim.data)))
plot(ecdf(sim.data),ylim=c(0,1), lwd=3,cex.main=0.9,col="red",
     xlab="Dados",ylab="Distribuição", 
     main="Distribuição empírica vs \n Estimador kernel da distribuição",
     cex.axis=1,cex.lab=1)
curve(kde.pfit,0,1,lwd=3,col="blue",add=T,n=1000)
grid();box()


4 Polinômios de Bernstein


Em 1912 Sergei Natanowitsch Bernstein (Bernstein 1912) introduziu o polinómio de Bernstein de ordem \(m\) de \(u\) sendo \[ B_m(x)=B_m(u;x)=\sum_{k=0}^m u(k/m) P_{k,m}(x) \] para uma função contínua \(u\) em [0,1], onde \(P_{k,m}(x)\) são os polinómios base de grau \(m\) de Bernstein \[ P_{k,m}(x)=\binom{m}{k} x^k (1-x)^{m-k}, \] para \(k=0,\cdots,m\) e \(x\in[0,1]\)

Observemos que \(P_{k,m}(x)=0\) para \(k<0\) ou \(k>m\).

Mostramos na Figura 6 os polinómios base de Bernstein de grau 1, 2 e 3.

par(mfrow=c(1,3),mar=c(4,4,1,1),pty="m")
plot(c(0,1), c(0,1), type='n', main = "", xlab = "x",
     ylab="Polinómios base de Bernstein, grau 1")
grid()
n = 1
xs <- pracma::linspace(0, 1)
for (i in 0:n){
  bs = xs
  for (k in 1:length(xs)){
    bs[k] <- pracma::bernsteinb(i, n, xs[k])  
  }
  lines(xs, bs, col=i+1)
} 
plot(c(0,1), c(0,1), type='n', main = "", xlab = "x",
     ylab="Polinómios base de Bernstein, grau 2")
grid()
n = 2
xs <- pracma::linspace(0, 1)
for (i in 0:n){
  bs = xs
  for (k in 1:length(xs)){
    bs[k] <- pracma::bernsteinb(i, n, xs[k])  
  }
  lines(xs, bs, col=i+1)
} 
plot(c(0,1), c(0,1), type='n', main = "", xlab = "x",
     ylab="Polinómios base de Bernstein, grau 3")
grid()
n = 3
xs <- pracma::linspace(0, 1)
for (i in 0:n){
  bs = xs
  for (k in 1:length(xs)){
    bs[k] <- pracma::bernsteinb(i, n, xs[k])  
  }
  lines(xs, bs, col=i+1)
} 

Figura 6: Polinómios base de Bernstein de grau 1 (esquerda), grau 2 (centro) e grau 3 (direita).

Os casos simples são os polinómios da base de Bernstein de grau 1 \[ P_{0,1}(x)=1-x \qquad \mbox{e} \qquad P_{1,1}(x)=x, \] de grau 2 \[ P_{0,2}(x)=(1-x)^2, \qquad P_{1,2}(x)=2x(1-x) \qquad \mbox{e} \qquad P_{2,2}(x)=x^2 \] e de grau 3

As propriedades seguintes e as suas provas podem ser encontradas em Joy (2000). A primeira propriedade é a definição recursiva. O polinómio \(P_{k,m}\) pode ser escrito como uma combinação convexa de \(P_{k,m-1}\) e \(P_{k-1,m-1}\) da seguinte forma \[ P_{k,m}(x)=(1-x)P_{k,m-1}(x)-xP_{k-1,m-1}(x)\cdot \] Assim, pode demonstrar-se que os polinómios de Bernstein são não-negativos. Uma outra pripriedade é a partição da unidade. Os \(k+1\) polinómios de Bernstein de grau \(m\) formam uma partição da unidade, ou seja, \[ \sum_{k=0}^m P_{k,m}(x)=1\cdot \] Um outra propriedade é a base de potência. Um polinómio de Bernstein pode ser escrito como \[ P_{k,m}(x)=\sum_{i=k}^m (-1)^{i-k} \binom{m}{i}\binom{i}{k} x^i \] de onde se conclui que \[ x^k=\sum_{i=k-1}^{n-1} \left(\binom{i}{k} \Biggm/ \binom{m}{k}\right) P_{i,m}(x)\cdot \]

A última propriedade a ser mencionade será forme de encontrar a derivada de um polinómio de Bernstein de grau \(m\), esta pode ser escrita como \[ \dfrac{\mbox{d}}{\mbox{d}x} P_{k,m}(x)=m\big( P_{k-1,m-1}(x)-P_{k,m-1}(x)\big), \] para \(k=0,\cdots,m\).


Teorema 5:

Se \(u\) for uma função contínua em [0,1], então quando \(m\to\infty\), \[ B_m(u;x)=\sum_{k=0}^m u(k/m) P_{k,m}(x)\to u(x) \] uniformemente para \(xin[0,1]\).


Demonstração. Ver Babu, Canty, e Chaubey (2002).



Num Congresso em Khar’kov em 1930 (Videnskii 2013), os três matemáticos Kantorovich, Vronskaya e Khlodovskii introduziram uma nova forma de aproximar funções \(\nu\in L[0,1]\) com \[ \displaystyle K_m(x)=K_m(\nu,x)=(m+1)\sum_{k=0}^m P_{k,m}(x)\int_{\frac{k}{m+1}}^{\frac{k+1}{m+1}} \nu(t)\mbox{d}t, \] os chamados polinômios de Kantorovich.

A conexão entre os polinômios de Kantorovich e os polinômios de Bernstein é \[ B'_{m+1}(u;x)=(m+1)\sum_{k=0}^m \left(u\big((k+1)/(m+1)\big)-u\big(k/(m+1) \big) \right)P_{k,m}(x)=K_m(\nu;x) \] para funções \(u\) e \(\nu\) com \[ u(x)=\int_{-\infty}^x \nu(t)\mbox{d}t\cdot \]

Claro, essa relação traz à mente as funções de densidade e distribuição. As aproximações mencionadas acima parecem ser uma boa maneira de estimar essas funções. Isso foi feito em 1975, quando Vitale foi o primeiro a introduzir uma estimativa de funções de densidade com polinômios de Bernstein com base nos polinômios de Kantorovich (Vitale 1975).

Para uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\), com função de densidade desconhecida \(f\) e suporte em [0,1], defina \[ A_{k,m}^{(n)}=\mbox{Número de } X_i \mbox{ em} \left( \dfrac{k}{m+1},\dfrac{k+1}{m+1}\right], \] para \(k\in \{0,\cdots,m\}\).

No trabalho original de Vitale, \(A_{k,m}^{(n)}\) é definido como o número de \(X_i\) em \(\left[\dfrac{k}{m+1},\dfrac{k+1}{m+1}\right]\). Esta definição conta muitos pontos duas vezes, o que não é muito atraente, embora a probabilidade de \(X_i\) cair em um desses pontos seja zero devido à continuidade de nossa distribuição. Na definição dada neste trabalho, apenas o ponto \(x = 0\) não é definido. Isso poderia ser evitado definindo um intervalo especial \(\left( 0,\dfrac{1}{m+1}\right]\).

Usando este resultado, Vitale aproxima \(f\) com \[ f^V _{m,n}(x)\dfrac{m+1}{n}\sum_{k=0}^m A_{k,m}^{(n)} P_{k,m}(x)\cdot \]

Vitale substitui a função de distribuição desconhecida \(F\) pela função de distribuição empírica \(F_n\) para estimar a densidade. Isso pode ser facilmente demonstrado por \[ \begin{array}{rcl} K_m(f;x) & = & \displaystyle (m+1)\sum_{k=0}^m P_{k,m}(x)\int_{\frac{k}{m+1}}^{\frac{k+1}{m+1}} f(t)\mbox{d}t \\[0.8em] & = & \displaystyle (m+1)\sum_{k=0}^m \left(F\big((k+1)/(m+1)\big)-F\big(k/(m+1)\big) \right) P_{k,m} \\[0.8em] & \approx & \displaystyle (m+1)\sum_{k=0}^m \left(F_n\big((k+1)/(m+1)\big)-F_n\big(k/(m+1)\big) \right) P_{k,m} \\[0.8em] & = & \displaystyle \dfrac{m+1}{n}\sum_{k=0}^m \sum_{i=1}^n \pmb{1}\left(k/(m+1)<X_i\leq (k+1)/(m+1) \right)P_{k,m}\\[0.8em] & = & \displaystyle \dfrac{m+1}{n}\sum_{k=0}^m A_{k,m}^{(n)} P_{k,m} \, = \, f^V_{m,n}(x)\cdot \end{array} \]

A próxima seção trata da estimativa de funções de distribuição com base nos polinômios de Bernstein.

5 Estimação em [0,1]


Nesta secção, seja \(X_1,X_2,\cdots\) uma sequência de variáveis aleatórias i.i.d. com uma função de distribuição desconhecida \(F\) e função de densidade desconhecida \(f\) com suporte no intervalo unitário [0,1]. Falamos agora de quando é possível transformar distribuições para o intervalo unitário sem quaisquer desvantagens.

Falamos agora de quando é possível transformar as distribuições para o intervalo unitário sem quaisquer desvantagens. No caso de uma variável aleatória \(Y\) ter suporte no intervalo compacto \([a,b]\), \(a < b\), pode pode ser facilmente restringida a [0,1], transformando \(Y\) em \((Y-a)/(b-a)\). A transformação inversa pode ser feita sem nos preocuparmos com optimalidade ou taxas de convergência.

Se uma variável aleatória \(Z\) ocupa a reta real \((-\infty,+\infty)\), uma transformação que altera o suporte para (0,1) é \(1/2+(1/\pi)\tan^{-1}(Z)\). No caso de \(Z\) ter suporte em \([0,+\infty)\), uma abordagem possível é \(Z/(1+Z)\), o que leva à concentração em \((0,1)\). Embora a variável aleatória resultante tenha suporte em (0,1) nos dois últimos casos, não é claro o que acontece às condições de optimalidade e às taxas de convergência após a transformação inversa.

Outro argumento contra as transformações não lineares é a perda de interpretabilidade. Imaginemos que temos duas variáveis aleatórias \(Z_1\) e \(Z_2\) em \([0,+\infty)\) e transformando-as em \(Z_1/(1+Z_1)\) e \(Z_2/(1+Z_2)\). Se \(Z_1/(1+Z_1)\) é estatisticamente inferior a \(Z_2/(1+Z_2)\), não é diretamente evidente se isto também se aplica a \(Z_1\) e \(Z_2\). Assim, estas transformações têm de ser tratadas com cuidado.

O caso da meia-linha real \([0,+\infty)\) sem necessidade de transformar a variável aleatória é considerado na Seção 6 e a Seção 7 trata tanto da meia-linha real \([0,+\infty)\) como da linha real \((-\infty,+\infty)\).

Ao longo de toda esta seçã, assumimos que a função de distribuição \(F\) é contínua e tem duas derivadas contínuas e limitadas em [0,1].

A continuidade deve ser entendida como continuidade à direita e à esquerda nos limites, conforme apropriado. O mesmo se aplica à diferenciabilidade. Note-se que as restrições na fronteira são apenas necessárias para melhor derivar as taxas de convergência. Para a convergência em si, o comportamento na fronteira não é importante, uma vez que o estimador tem um desvio e uma variância nulos nesse limite.

Esta ideia foi obtida em Leblanc (2012). O objetivo desta seção é a estimação de uma função de distribuição \(F\) com densidade \(f\) e suporte em [0,1], dada uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\). Como \(F\) é contínua no nosso caso, a utilização de um estimador contínuo faz muito mais sentido do que usar a função de distribuição empírica (EDF) \(\widehat{F}_n\).

Com o Teorema 5 sabemos que \(F\) pode ser representada pela expressão \[ B_m(F;x)=\sum_{k=0}^m F(k/m)P_{k,m}(x), \] que converge para \(F\) uniformemente para \(x\in [0,1]\).

Como a função de distribuição \(F\) é desconhecida, a ideia agora é substituir \(F\) pela EDF \(\widehat{F}_n\). Seguindo [17], isto leva à função de distribuição

\[ \widehat{F}_{m,n}(x)=\sum_{k=0}^m \widehat{F}_n(k/m) P_{k,m}(x), \] onde \(P_{k,m}(x)=\binom{m}{k}x^k (1-x)^{m-k}\) são os polinómios base de Bernstein.

Assumimos sempre que \(m = m_n\) depende de \(n\). A Figura 6 mostra como os polinómios ponderados base de Bernstein (azul) se somam para estimar a função de distribuição. De seguida, apresentamos e provamos algumas propriedades importantes do estimador da distribuição de Bernstein.

pracma::bernsteinb(2,20,dados[1])
## [1] 0.1700728

6 Estimação de Szasz


Como mencionado na Seção 5, não é suficiente considerar funções de distribuição em [0,1]. Esta é a razão pela qual nesta seção, lidamos com distribuições em \([0,\infty)\). Similar à Seção 5, seja \(X_1,X_2,\cdots\) uma sequência de variáveis aleatórias i.i.d. com função de distribuição desconhecida \(F\) e função de densidade desconhecida \(f\) com suportes no intervalo \([0,\infty)\). Assumimos que uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\), está disponível.

Para estimar uma função de distribuição em \([0,\infty)\), uma técnica muito similar ao estimador de Bernstein é usada. Em vez dos polinômios de base de Bernstein, usamos aqui as funções \[ V_{k,m}(x)=e^{-m x}\dfrac{(mx)^k}{k!}\cdot \]

A primeira pessoa a fazê-lo foi Mirakyan em 1941. Em 1950, Szasz escreveu o famoso artigo Szasz (1950), onde expandiu os polinômios de Bernstein para o operador Szasz-Mirakyan \[ S_m(x)=S_m(u;x)=\sum_{k=0}^\infty u(k/m)e^{-m x}\dfrac{(mx)^k}{k!}=\sum_{k=0}^\infty u(k/m)V_{k,m}(x), \] para uma função \(u\) sendo contínua em \((0,\infty)\).


Teorema 6.1:

Se \(u\) é uma função contínua em \((0,\infty)\) com um limite finito no infinito, então como \(m\to ∞\), \[ S_m(u;x)=\sum_{k=0}^\infty u(k/m)e^{-m x}\dfrac{(mx)^k}{k!} \to u(x), \] uniformemente para \(x\in (0,\infty)\).


Demonstração. Ver Szasz (1950).



Pode-se expandir o Teorema 6.1 para uma função \(u\) sendo contínua em \([0,\infty)\) com \(u(0) = 0\). Então, \(S_m(u; 0) = 0\) e com a continuidade vale que \(S_m(u; x)\to u(x)\) para \(x\in [0,\infty)\).

Semelhante ao Vitale, isso é usado para estimar uma função de densidade \(f\) em Gawronski e Stadtmueller (1980) com \[ \widehat{f}^S_{m,n}(x)=\dfrac{m}{n}\sum_{m=0}^\infty B_{k,m}^{(n)} e^{-m x}\dfrac{(mx)^k}{k!}, \] onde \(f\) tem suporte em \([0,\infty)\) e \[ B_{k,m}^{(n)} = \mbox{Número de } X_i \mbox{ em } [k/m,(k+1)/m), \quad k\in\mathbb{N}_0\cdot \]

Agora, voltamos nossa atenção para a função de distribuição. Com o Teorema 6.1 sabemos que uma função de distribuição \(F\) em \([0,\infty)\) pode ser representada por \[ \tag{6.1} S_m(F;x)=\sum_{k=0}^\infty F(k/m)e^{-m x}\dfrac{(mx)^k}{k!}, \] que converge para \(F\) uniformemente para \(x\in [0,\infty)\). Isso decorre de \(F(0) = 0\) e da observação após o teorema.

Uma ideia para estimar esta função de distribuição \(F\) em \([0,\infty)\) é \[ \widehat{F}^S_{m,n}(x)=\sum_{k=0}^\infty F_n(k/m)e^{-m x}\dfrac{(mx)^k}{k!}\cdot \]

A intuição é que substituímos a função de distribuição desconhecida \(F\) no operador Szasz-Mirakyan (6.1) pela função de distribuição empírica (EDF) \(F_n\). Chamamos esse estimador de \(\widehat{F}^S_{m,n}\) de estimador Szasz. Como antes, assumimos que \(m = m_n\) depende de \(n\). Observe aqui que a soma é infinita, o que não é uma propriedade desejável.

A soma não pode ser truncada porque então as probabilidades de Poisson não somam mais um. Isso produz um estimador que não se aproxima de um para \(x\to\infty\). No entanto, mais tarde veremos que o estimador pode ser facilmente reescrito, de modo que a soma seja finita. Para trabalhar com esse estimador, assumimos o seguinte.


Suposição 6.1:

A função de distribuição \(F\) é contínua. As derivadas \(f\) e \(f'\) 0 são contínuas e limitadas em \([0,\infty)\).


Observe que, se apenas a convergência em si for importante e não estivermos interessados em derivar a taxa de convergência, é suficiente assumir essas propriedades em \((0,\infty)\). A seguir, declaramos e provamos algumas propriedades importantes do estimador de Szasz.

6.1 Propriedades gerais


Aqui, algumas propriedades importantes do estimador de Szasz \(\widehat{F}_{m,n}^S(x)\) são mostradas. O comportamento na fronteira é muito bom, como pode ser visto agora. Sabemos que \[ \tag{6.2} \widehat{F}_{m,n}^S(0)=0=F(0)=S_m(F;0) \qquad \mbox{e} \qquad \lim_{x\to\infty}\widehat{F}_{m,n}^S(x)=1=\lim_{x\to\infty} F(x)=\lim_{x\to\infty} S_m(F;x) \] com probabilidade um para todo \(m\). Isso significa que o viés e a variância no ponto \(x = 0\) são zero.

Para mostrar que o limite é um, as seguintes funções são necessárias. A função gama é definida como \[ \displaystyle \Gamma(z)=\int_0^\infty x^{z-1}e^{-x}\mbox{d}x\cdot \]

As funções gama incompletas superior e inferior são definidas por \[ \Gamma(z,s)=\int_s^\infty x^{z-1}e^{-x}\mbox{d}x \qquad \mbox{e} \qquad \gamma(z,s)=\int_0^s x^{z-1}e^{-x}\mbox{d}x, \] respectivamente. O limite é um, pois \[ \begin{array}{rcl} \widehat{F}_{m,n}^S(x) & = & \displaystyle \sum_{k=0}^\infty F_n(k/m)e^{-m x}\dfrac{(mx)^k}{k!} \\[0.8em] & = & \displaystyle \dfrac{1}{n} \sum_{i=1}^n\sum_{k=0}^\infty \pmb{1}_{(k\geq mX_i)} e^{-m x}\dfrac{(mx)^k}{k!} \, = \, \sum_{i=1}^n \sum_{k=[mX_i]}^\infty e^{-m x}\dfrac{(mx)^k}{k!}\\[0.8em] & = & \displaystyle \dfrac{1}{n}\sum_{i=1}^n P\big(Y\geq [mX_i] \big) \, = \, \dfrac{1}{n}\dfrac{\gamma\big([mX_i],mx\big)}{\Gamma\big([mX_i]\big)} \, \overset{x\to\infty}{\longrightarrow} \, 1, \end{array} \] onde \(Y\sim P(mx)\) é uma variável aleatória. Como a representação acima contém apenas um número finito de somas, ela pode ser usada para simular o estimador. Agora, também é possível ilustrar o estimador, veja a Figura 6.1.

library(pracma)
f <- function(x) sin(2*pi*x)
xs <- linspace(0, 1)
ys <- f(xs)
## Not run: 
plot(xs, ys, type='l', col="blue",
     main="Bernstein Polynomials")
grid()

#b10  <- bernstein(f,  10, xs)
#b100 <- bernstein(f, 100, xs)
#lines(xs, b10,  col="magenta")
#lines(xs, b100, col="red") 

Figura 7.1: Ilustração do estimador de Szasz para \(n = 20\).

A esperança do operador Szasz é, naturalmente, dada pela expressão \(\mbox{E}\big(\widehat{F}^S_{m,n}(x)\big) = S_m(F;x)\) para \(x\in [0,\infty)\). Ela sustenta que \(\widehat{F}^S_{m,n}(x)\) produz uma função de distribuição contínua adequada com probabilidade um e para todos os valores de \(m\). A continuidade de \(\widehat{F}^S_{m,n}(x)\) é óbvia. Além disso, segue de (6.2) e do próximo teorema que \(0\leq \widehat{F}^S_{m,n}(x)\leq 1\) para \(x\in [0,\infty)\).


Teorema 6.2:

A função \(\widehat{F}^S_{m,n}(x)\) é crescente em \(x\in [0,\infty)\).


Demonstração. Esta prova é semelhante à do Teorema 5.1. Seja



6.1.1 Vício e variância

6.2 Comportamento assintótico

7 Estimação de Hermite


Nesta seção, sejam \(X_1,X_2,\cdots\) uma sequência de variáveis aleatórias i.i.d. com uma função de distribuição desconhecida \(F\) e uma função de densidade desconhecida \(f\). Recebemos uma amostra aleatória finita \(X_1,\cdots,X_n\), \(n\in\mathbb{N}\), para estimar a função de distribuição \(F\) com os chamados polinómios de Hermite.

Fazemos isto primeiro para \(f\) com suporte em \([0,\infty)\), seguindo Stephanou, Varughese, e Macdonald (2017) e depois para \((-\infty,+\infty)\), seguindo Stephanou e Varughese (2021).

Durante esta seção, pretendemos que a seguinte hipótese se mantenha: a função de densidade \(f\in L^2\). Em matemática, uma função quadrático-integrável, também designada por função quadraticamente integrável ou \(L^2\) é uma função mensurável de valor real ou complexo para a qual o integral do quadrado do valor absoluto é finito. Assim, a integrabilidade quadrática na reta real \((-\infty,+\infty)\) é definido da seguinte forma, \[ f \, : \, \mathbb{R}\to \mathbb{C} \quad \mbox{se, e somente se} \quad \int_{-\infty}^{+\infty} |f(x)|^2\mbox{d}x< +\infty\cdot \]

Note-se que, para que muitos resultados se mantenham, é necessário o pressuposto adicional de que \[ \left(x-\dfrac{\mbox{d}}{\mbox{d}x}\right)^r f\in L^2, \] onde \(r>1\) tem de ser cumprida. Isto garante que a função \(f\) seja rapidamente decrescente, o que faz sentido uma vez que as funções de Hermite partilham esta propriedade (ver Walter 1977).

Um dos resultados será o facto de o estimador proposto ser inferior ao estimador da distribuição kernel em termos da taxa de convergência assintótica, mas há uma vantagem clara. Para a função de distribuição empírica (EDF) e o estimador kernel, a estimação sequencial (online), ou seja, processar as (ou seja, processar as observações sequencialmente para que não seja necessário armazenar todas as observações) da função de distribuição A função de distribuição só é possível num determinado x (ver, por exemplo, Jmaei, Slaoui, e Dellagi 2017).

Para o estimador introduzido nesta seção, a estimação sequencial é possível para um \(x\) arbitrário. Além disso, o tempo que demora a atualizar a estimativa é \(O(1)\) e, portanto, não cresce com o número de amostras. Ao longo desta seção usamos por vezes a notação \(a(x)\sim b(x)\), quando \(x\to\infty\), o que significa que \[ \lim_{x\to\infty} \dfrac{a(x)}{b(x)}=1\cdot \] Introduzimos agora os polinómios de Hermite.

7.1 Polinómios de Hermite


Os chamados polinómios de Hermite \(H_k\) são definidos por \[ H_k(x)=(-1)^k e^{x^2} \dfrac{\mbox{d}^k}{\mbox{d}x^k} e^{-x^2}\cdot \]

Uma expressão explícita para os polinómios é \[ H_k(x)=k!\sum_{m=0}^{[k/2]} \dfrac{(-1)^m}{m! (k-2m)!} (2x)^{k-2m}\cdot \] Estes polinómios são ortogonais em relação a \(e^{-x}\), o que significa que \[ \int_{-\infty}^{+\infty} e^{-x^2} H_k(x) H_l(x)\mbox{d}x = \sqrt{\pi} \, 2^k k! \delta_{kl}, \] em que \(\delta_{kl}\) é a função delta de Kronecker. As funções de Hermite normalizadas são definidas por \[ \tag{7.1} h_k(x)=\big(2^k k! \sqrt{\pi} \big)^{-1/2} e^{-x^2/2} H_k(x)\cdot \] Formam uma base ortonormal para \(L^2\) e, por conseguinte, satisfazem \[ \int_{-\infty}^{+\infty} h_k(x) h_l(x)\mbox{d}x=\delta_{kl}\cdot \]

As funções de Hermite normalizadas estão ilustradas na Figura 7.1 para \(k\in\{0,\cdots,5\}\). Os polinómios de Hermite satisfazem a desigualdade \[ \big(2^k k! \sqrt{\pi} \big)^{-1/2}|H_k(x)|e^{-x^2/2}\leq c_a(k+1)^{-1/4}, \quad |x|\leq a, \] para alguma constante \(c_a\) e \(a\) não negativo e a desigualdade \[ \big(2^k k! \sqrt{\pi} \big)^{-1/2}|x^{-1/3} H_k(x)|e^{-x^2/2}\leq d_b(k+1)^{-1/4}, \quad |x|\geq b, \]

para alguma constante \(d_b\) e \(b\) positivo (ver Szegö (1939)], usado em (Greblicki e Pawlak 1984). Nesta seção, usamos a expansão de Gauss-Hermite para estimar a função densidade e a função distribuição.

x <- seq(-5,5,by=0.01)
k <- 5 # número de polinómios de Hermite para graficar
(hermPolys <- (mpoly::hermite(0:k,kind="h"))*(2^{0:k}*factorial(0:k)*sqrt(pi))^(-1/2))
## 0.751125544464943
## 1.062252 x
## 1.062252 x^2  -  0.531126
## 0.8673251 x^3  -  1.300988 x
## 0.6132914 x^4  -  1.839874 x^2  +  0.4599686
## 0.3878796 x^5  -  1.939398 x^3  +  1.454548 x
Gauss.density <- exp(-x^2/2)
df <- data.frame(x, as.function(hermPolys)(x)*Gauss.density)
names(df) <- c("x", paste0("h_",0:k))
mdf <- tidyr::gather(df, degree, value, -x)
library(ggplot2)
ggplot(mdf, aes(x,value, geom = "line", color = degree)) + geom_line()

Figura 7.1: As funções de Hermite normalizadas para \(k\in\{0,\cdots,5\}\).

7.2 Expansão de Gauss-Hermite


A expansão de Gauss-Hermite é, por exemplo, definida em Blinnikov e Moessner (1998). Tem boas propriedades de convergência e é robusta a outliers, ver Puuronen e Hyvärinen (2011). De seguida, mostramos os passos necessários para obter esta expansão. Definimos \[ Z(x)=\dfrac{1}{\sqrt{2\pi}}e^{-x^2/2}, \qquad \alpha_k=\dfrac{\sqrt{\pi}}{2^{k-1} k!} \] e \[ a_k =\int_{-\infty}^{+\infty} f(x) h_k(x)\mbox{d}x\cdot \]

Como foi referido anteriormente, as funções de Hermite normalizadas \(h_k\), definidas em (7.1), formam uma base ortonormal para \(L^2\). Usando este resultado, faz sentido que para \(f\in L^2\), \[ \tag{7.2} f(x) = \displaystyle \sum_{k=0}^\infty a_k h_k(x) \] que pode ser escrita como \[ \tag{7.3} f(x)= \displaystyle \sum_{k=0}^\infty \sqrt{\alpha_k} \, a_k H_k(x)Z(x)\cdot \]

De agora em diante, as expressões das equações (7.2) e (7.3) são utilizadas indistintamente e designadas como a expansão de Gauss-Hermite. A igualdade das duas expressões é válida devido a \[ \begin{array}{rcl} \displaystyle \sum_{k=0}^\infty a_k h_k(x) & = & \displaystyle \sum_{k=0}^\infty a_k \big(2^k k! \sqrt{\pi} \big)^{-1/2} e^{-x^2/2}H_k(x) \\[0.8em] & = & \displaystyle \sum_{k=0}^\infty \sqrt{\dfrac{\sqrt{\pi}}{2^{k-1}k!}}\, a_k \dfrac{1}{\sqrt{2\pi}}e^{-x^2/2}H_k(x) = \sum_{k=0}^\infty \sqrt{\alpha_k} \, a_k H_k(x)Z(x)\cdot \end{array} \]

A expressão em (7.2) mostra que a densidade da distribuição normal pode ser estimada com apenas o primeiro somatório \(a_0 h_0\). Para a distribuição normal padrão, o primeiro somatório é da forma \[ a_0h_0(x)=\dfrac{1}{\pi^{1/4}}\int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}}e^{-x^2}\mbox{d}x \times \dfrac{1}{\pi^{1/4}}e^{-x^2/2}=\dfrac{1}{\sqrt{2\pi}}e^{-x^2/2}\cdot \] Todos os outros somandos são zero neste caso. A soma infinita em (7.2) e em (7.3) não é desejável. Um truncamento em \(N\) da soma conduz à expansão truncada \[ f_N(x)=\sum_{k=0}^N a_k h_k(x) = \sum_{k=0}^N \sqrt{\alpha_k} \, a_k H_k(x)Z(x)\cdot \]

Os coeficientes \(a_k\) são escolhidos de modo a que a \(L^2\)-distância entre \(f\) e \(f_N\) seja minimizada. Uma explicação detalhada pode ser encontrada em Davis (1989). No que se segue, se \(N=N(n)\) depende de \(n\), o que é sempre o caso, exceto quando explicitamente mencionado, assumimos que \(N\to\infty\) para \(n\to\infty\). De seguida, tratamos da estimação Hermite da densidade.

7.2.1 Estimação de densidade


Com as expressões definidas acima, definimos agora um estimador da função de densidade. Os coeficientes \(a_k\) também podem ser escritos como \(a_k = \mbox{E}\big(h_k(Y)\big)\), em que \(Y\) é uma variável aleatória com uma função de densidade \(f\). Segundo Stephanou, Varughese, e Macdonald (2017), \(a_k\) pode ser estimado por \[ \tag{7.4} \widehat{a}_k=\dfrac{1}{n}\sum_{i=1}^n h_k(X_i), \] com a lei dos grandes números. Por conseguinte, o estimador da densidade acima referido é definido como \[ \tag{7.5} \widehat{f}_{N,n}(x)=\sum_{k=0}^N \widehat{a}_k h_k(x) = \sum_{k=0^N} \sqrt{\alpha_k} \, \widehat{a}_k H_k(x)Z(x)\cdot \] Este estimador da função de densidade Beta(4,4) é ilustrado na Figura 7.2.

Nas linhas de código R abaixo, construímos a função density.hermite para estimar a função de densidade segundo a expressão (7.5).

# Esta função supões que a amostra seja univariada 
# Entradas:
# N = número de somandos (truncamento), corresponde ao número de coeficiêntes a_k
# x = pontos nos quais deseja-se avaliar a função de densidade estimada (opcional),
#     caso não seja informado avalia-se nos pontos amostrados
# amostra 
#
density.hermite <- function(amostra,N,x=NULL){
  stopifnot(N>0)
  n = length(amostra)
  stopifnot(n>1)
  amostra=sort(amostra)
  hermPolys <- (mpoly::hermite(0:N,kind="h"))*(2^{0:N}*factorial(0:N)*sqrt(pi))^(-1/2)
  Gauss.density <- exp(-amostra^2/2)
  hk <- data.frame(as.function(hermPolys)(amostra)*Gauss.density)
  if(is.null(x)){
    ak <- matrix(rep(apply(hk,2,mean),n),ncol=(N+1),byrow=TRUE)
    f <- apply(as.matrix(matrixcalc::hadamard.prod(as.matrix(hk),ak)),1,sum)
  }
  else{
    x=sort(x)
    nn=length(x)
    Gauss.density <- exp(-x^2/2)
    hk_x <- data.frame(as.function(hermPolys)(x)*Gauss.density)
    ak <- matrix(rep(apply(hk,2,mean),nn),ncol=(N+1),byrow=TRUE)
    f <- apply(as.matrix(matrixcalc::hadamard.prod(as.matrix(hk_x),ak)),1,sum)
  }
  return(f)
}
x = seq(-0.3,1.3,by=0.01)
n=500;N=5
plot(x,dbeta(x,4,4),type="l",lwd=2,
     ylab="Densidade",main="Estimador Hermite de densidade")
grid()
amostra = rbeta(n,4,4)
rug(amostra)
lines(x,density.hermite(amostra,N,x),col="violet")
N=10
lines(x,density.hermite(amostra,N,x),col="green")
N=20
lines(x,density.hermite(amostra,N,x),col="blue")
N=50
lines(x,density.hermite(amostra,N,x),col="red")
legend(-0.3,2,legend = c("Densidade","N=5","N=10","N=20","N=50"),
       lty=1,lwd=2,col = c("black","violet","green","blue","red"))

Figura 7.2: Ilustração do estimador Hermite da densidade Beta(4,4) para diferentes parâmetros.

A função density.hermite depende de funções nos pacotes mpoly e matrixcalc, os quais devem ser instalados previamente. Dos argumentos da função, dois são obrigatórios: amostra e N. O primeiro são os dados i.i.d., o segundo o número de somandos na definição (7.5). O terceiro argmento x, o qual é opcional, indica os valores nos quais queremos avaliar a função de densidade estimada. No caso da Figura 7.2, a amostra utilizada foram dados simulados da densidade Beta(4,4) e para x foram selecionados valores entre -0.3 e 1.3, para melhor visualizar a qualidade do estimador.

Percebemos na Figura 7.2 que, conforme aumenta o valor do parâmetros \(N\) a função de densidade estimada aproxima-se à densidade teórica. Ainda podemos perceber que, devido ao truncamento no número de termos, o estimador pode eventualmente assumir valores negativos. Como encontrar o valor ótimo de \(N\)?

O passo seguinte é calcular o MISE (erro quadrático médio integral). Com a identidade de Parseval e o fato das funções \(h_k\) formarem uma base ortonormal para \(L^2\), obtemos \[ \tag{7.6} \begin{array}{rcl} \mbox{MISE}\big(\widehat{f}_{N,n}(x)\big) & = & \displaystyle \mbox{E}\left(\int_{-\infty}^{+\infty} \Big(\widehat{f}_{N,n}(x)-f(x) \Big)^2\mbox{d}x \right) \\[0.8em] & = & \displaystyle \mbox{E}\left( || \widehat{f}_{N,n}-f ||^2_{L^2} \right) = \mbox{E}\left( \sum_{k=0}^\infty |<\widehat{f}_{N,n}-f,h_k>|^2 \right)\\[0.8em] & = & \displaystyle \underbrace{\mbox{E}\left( \sum_{k=0}^N \big(\widehat{a}_{k}-a_k\big)^2 \right)}_{S_1}+\underbrace{\sum_{k=N+1}^\infty a_k^2}_{S_2}\cdot \end{array} \] porque \[ \begin{array}{rcl} <\widehat{f}_{N,n}-f,h_k> & = & \displaystyle \int_{-\infty}^{+\infty} \left(\sum_{\ell=0}^N \widehat{a}_\ell h_\ell(x)-\sum_{r=0}^\infty a_r h_r(x)\right)h_k(x)\mbox{d}x \\[0.8em] & = & \displaystyle \sum_{\ell=0}^N \widehat{a}_\ell \int_{-\infty}^{+\infty} h_\ell(x) h_k(x)\mbox{d}x-\sum_{r=0}^\infty a_r \int_{-\infty}^{+\infty} h_r(x)h_k(x)\mbox{d}x = \left\{\begin{array}{cc} \widehat{a}_k-a_k, & \mbox{ se } k\leq N \\[0.8em] -a_k, & \mbox{ se } k>N\end{array} \right.\cdot \end{array} \]

O primeiro termo \(S_1\) na equação (7.6) é o termo da variância integrada que dá o erro que obtemos de utilizarmos as estimativas \(\widehat{a}_k\) em vez de \(a_k\). O segundo termo \(S_2\) na equação (7.6) é o termo de desvio quadrático integrado que representa o erro devido ao truncamento. Em Greblicki e Pawlak (1984), a consistência do MISE do foi provada sob a condição \(N^{5/6}/n\to 0\), ou seja, significa que no exemplo mostrado na Figura 7.2 o número máximo de somandos é \(N=N_n=n^{5/6}\), o que corresponde a \(N=177\).

O resultado de utilizar o valor ótimo encontrado acima de \(N\) é mostrado na figura a continuação.

plot(x,dbeta(x,4,4),type="l",lwd=2,
     ylab="Densidade",main="Estimador Hermite de densidade")
grid()
rug(amostra)
lines(x,density.hermite(amostra,177,x),col="red")
legend(-0.2,2,legend = c("Densidade","N=177"),
       lty=1,lwd=2,col = c("black","red"))

Figura 7.3: Ilustração do estimador Hermite da densidade Beta(4,4) para o valor ótimo de \(N=N_n=n^{5/6}\).

Observamos na figura acima a qualidade aprimorada do estimador Hermite mas, o processo pode ser um pouco demorado.

Para muitas funções de densidade, a estimativa de Gauss-Hermite produz boas estimativas, ver Puuronen e Hyvärinen (2011). A desvantagem é que, devido ao truncamento, os resultados podem ser negativos para certos valores de \(x\). Além disso, para distribuições que se desviam fortemente da distribuição gaussiana, pode ser necessário escolher um \(N\) grande para obter um ajuste satisfatório. Note-se que não é possível estimar a função de distribuição da mesma forma que a função de densidade porque \(F\) não está em \(L^2\).

Isto é fácil de ver com \[ \int_{-\infty}^{+\infty} F^2(x)\mbox{d}x\leq \int_{-\infty}^{+\infty} F(x)\mbox{d}x, \] que não é limitada.

Por conseguinte, a função de distribuição tem de ser estimada de uma forma diferente, que é explicada nas seções seguintes para a meia-linha real e para a linha real. Antes de o fazer, a próxima seção é uma pequena excursão que trata de uma forma de estimar a função de distribuição com polinómios de Hermite, que não é o foco desta seção. A abordagem é necessária mais tarde, no Lema 7.9. É semelhante ao estimador de Gauss-Hermite.

7.2.2 Série de Gram-Charlier


Aqui, definimos rapidamente a Série de Gram-Charlier do Tipo A que pode ser usada para estimar a função de distribuição e a função de densidade, seguindo Stephanou e Varughese (2021). Depois, voltamos a nossa atenção para a expansão de Gauss-Hermite, que é o tema do resto da Seção 7.

Em primeiro lugar, precisamos de definir os polinómios de Chebyshev-Hermite \[ H_{e_k}(x)=2^{k/2}H_k(x/\sqrt{2}) \] e a função \[ Z(x)=\dfrac{1}{\sqrt{2\pi}} e^{-x^2/2}\cdot \]

Agora, se uma função de densidade \(f\) puder ser formalmente expandida como \[ f(x)=\sum_{k=0}^\infty c_k H_k(x) Z(x) \] com \[ c_k=\dfrac{1}{k!} \int_{-\infty}^{+\infty} f(x) H_{e_k}(x)\mbox{d}x, \] esta pode ser utilizada para estimar a função de densidade e, por conseguinte, também a função de distribuição.

A versão versão truncada tem a forma \[ f(x)=\sum_{k=0}^N c_k H_k(x) Z(x) \] e seguindo Stephanou, Varughese, e Macdonald (2017), a função de distribuição pode ser estimada por \[ \tag{7.7} \widehat{F}^{GC}_{N,n}(x)=\sum_{k=0}^N \widehat{c}_k \int_{-\infty}^x H_{e_k}(x) Z(y)\mbox{d}y, \] onde \[ \widehat{c}_k=\dfrac{1}{k!\, n}\sum_{i=1}^n H_{e_k}(X_i)\cdot \]

O estimador em (7.7) não é um bom estimador por causa da necessidade do cálculo da integral. A próxima seção trata do estimador da função de distribuição de Hermite na semirreta real.

7.2.3 Função de Distribuição estimada semireta


Consideramos agora distribuições com suporte em \([0,+\infty)\) e introduzimos o estimador da distribuição de Gauss-Hermite na meia-linha real. Além disso, calculamos o MSE e o MISE do estimador da distribuição de Gauss-Hermite. Entre outras coisas, estabeleceremos que ambos dependem diretamente de \(\mbox{MISE}\big( \widehat{f}_{N,n}\big)\).

Dois exemplos de distribuições que se enquadram neste caso são a distribuição qui-quadrado e a distribuição exponencial. Ambas constituem um desafio para o estimador de Gauss-Hermite, uma vez que diferem consideravelmente da distribuição normal para determinados parâmetros. A distribuição exponencial é ainda mais difícil porque a moda é zero. No caso da meia-linha real, seguindo Stephanou, Varughese, e Macdonald (2017), o estimador da distribuição de Gauss-Hermite é calculado por \[ \widehat{F}^H_{N,n}(x)=\int_0^x \widehat{f}_{N,n}(t)\mbox{d}t, \] que conduz a \[ \begin{array}{rcl} \widehat{F}^H_{N,n}(x) & = & \displaystyle \int_0^x \widehat{f}_{N,n}(t)\mbox{d}t = \sum_{k=0}^N \sqrt{\alpha_k\widehat{a}_k} \int_0^x H_k(t)Z(t)\mbox{d}t \\[0.8em] & = & \displaystyle \sum_{k=0}^N \sqrt{\alpha_k\widehat{a}_k}\, k! \sum_{m=0}^{[k/2]} \dfrac{(-1)^m 2^{k-2m}}{m!(k-2m)!\sqrt{2\pi}} \int_0^x t^{k-2m}e^{-x^2/2}\mbox{d}t\\[0.8em] & = & \displaystyle \sum_{k=0}^N \sqrt{\alpha_k\widehat{a}_k}\, k! \sum_{m=0}^{[k/2]} \dfrac{(-1)^m 2^{k-2m}}{m!(k-2m)!\sqrt{2\pi}} 2^{\frac{k}{2}-m-\frac{1}{2}} \gamma\Big(-m+\frac{k}{2}+\frac{1}{2},\frac{x^2}{2}\Big), \end{array} \] em que \(\gamma\) é a função gama incompleta inferior. Para resumir, a distribuição de Gauss-Hermite em \([0,+\infty)\) tem a forma \[ \tag{7.8} \widehat{F}^H_{N,n}(x) =\sum_{k=0}^N \widehat{a}_k \sqrt{k!} \sum_{m=0}^{[k/2]} \dfrac{(-1)^m 2^{k-3m-\frac{1}{2}} \gamma(-m+\frac{k}{2}+\frac{1}{2},\frac{x^2}{2}) }{m! (k-2m)! \, \pi^\frac{1}{4}}, \quad x\geq 0\cdot \]

Apresentamos agora o desvio assintótico e a variância do estimador da distribuição de Gauss-Hermite.

7.2.3.1 Viés e variância


O próximo lema dá o comportamento assintótico da variância.


Lema 7.1:

Suponha que \(f\) tenha suporte em \([0,+\infty)\) e \(\mbox{E}\big(|X|^{2/3}\big) <+\infty\) para uma variável aleatória \(X\) com função densidade \(f\in L^2\). Então, temos que, \[ \mbox{E}\left(\left|\widehat{F}^H_{N,n}(X)-\mbox{E}\Big(\widehat{F}^H_{N,n}(X)\Big) \right|^2 \Big| X=x \right)=O_x\left(\dfrac{N^{3/2}}{n}\right), \] uniformemente em \(x\) quando \(n\to\infty\). Mais ainda, \[ \lim_{n\to +\infty}\mbox{E}\left(\left|\widehat{F}^H_{N,n}(X)-\mbox{E}\Big(\widehat{F}^H_{N,n}(X)\Big) \right|^2 \Big| X=x \right)=0, \] para \(N_n^{3/2}/n\to 0\).


Demonstração.



7.2.3.2 MSE


O lema seguinte decorre de [39, Proposição 1].

8 Exercícios


  1. Gere 100 observações a partir de uma distribuição \(N(0,1)\). Calcule uma faixa de confiança de 95% para a função de distribuição empírica \(\widehat{F}_n\). Repita isso 1000 vezes e veja com que frequência a faixa de confiança contém a verdadeira função de distribuição. Repita usando dados de uma distribuição Cauchy.

  2. Seja \(X_1,\cdots, X_n\) uma amostra aleatória da distribuição \(F\) e seja \(\widehat{F}_n\) a função de distribuição empírica. Para um \(x\) fixo, encontre a distribuição limite de \(\sqrt{\widehat{F}_n(x)}\).

  3. Sejam \(x\) e \(y\) dois pontos distintos. Encontre \(\mbox{Cov}\Big(\widehat{F}_n(x),\widehat{F}_n(y)\Big)\).

9 Bibliografia


Azzalini, A. 1981. “A Note on the Estimation of a Distribution Function and Quantiles by a Kernel Method”. Biometrika, nº 68(1): 326–28.
Babu, G. J., A. J. Canty, e Y. P. Chaubey. 2002. “Application of Bernstein Polynomials for Smooth Estimation of a Distribution and Density Function”. Journal of Statistical Planning and Inference, nº 105(2): 377–92.
Bernstein, S. 1912. “Démonstration Du Théorème De Weierstrass Fondée Sur La Calcul Des Probabilités”. Kharkov Mathematical Society, nº Volume XIII: 1–2.
Blinnikov, S., e R. Moessner. 1998. “Expansions for Nearly Gaussian Distributions”. Astronomy and Astrophysics Supplement Series, nº 1(130): 193–205.
Davis, H. F. 1989. Fourier Series and Orthogonal Functions. Dover Publications.
Gawronski, W., e U. Stadtmueller. 1980. “On Density Estimation by Means of Poisson’s Distribution”. Scandinavian Journal of Statistics, nº Vol. 7, No. 2: 90–94.
Gramacki, A. 2018. Nonparametric Kernel Density Estimation and Its Computational Aspects. ser. Studies in Big Data. Springer International Publishing.
Greblicki, W., e M. Pawlak. 1984. “Hermite Series Estimates of a Probability Density and Its Derivatives”. Journal of Multivariate Analysis, nº 15(2): 174–82.
Jmaei, A., Y. Slaoui, e W. Dellagi. 2017. “Recursive Distribution Estimator Defined by Stochastic Approximation Method Using Bernstein Polynomials”. Journal of Nonparametric Statistics, nº 29(4): 792–805.
Joy, K. I. 2000. “Bernstein Polynomials”. University of California, Davis, 1–13.
Kim, C., S. Kim, M. Park, e H. Lee. 2006. “A Bias Reducing Technique in Kernel Distribution Function Estimation”. Computational Statistics, nº vol. 21, no. 3: 589–601.
Leblanc, A. 2012. Annals of the Institute of Statistical Mathematics 64(5): 919–43.
Parzen, E. 1962. “On Estimation of a Probability Density Function and Mode”. The Annals of Mathematical Statistics, nº vol. 33, no. 3: 1065–76.
Puuronen, J., e A. Hyvärinen. 2011. Hermite Polynomials and Measures of Non-Gaussianity. Artificial Neural Networks; Machine Learning, Lecture Notes in Computer Science, Berlin, Heidelberg: Springer.
Rosenblatt, M. 1956. “Remarks on Some Nonparametric Estimates of a Density Function”. The Annals of Mathematical Statistics, nº vol. 27, no. 3: 832–37.
Shalizi, C. 2009. “Estimating Distributions and Densities”. https://www.stat.cmu.edu/ cshalizi/uADA/15/lectures/15.pdf, nº Nov.
Stephanou, M., e M. Varughese. 2021. “On the properties of hermite series based distribution function estimators”. Metrika: International Journal for Theoretical and Applied Statistics, nº 84(4): 535–59.
Stephanou, M., M. Varughese, e I. Macdonald. 2017. “Sequential Quantiles Via Hermite Series Density Estimation”. Electronic Journal of Statistics, nº 1(11): 570–607.
Szasz, O. 1950. “Generalization of S. Bernstein’s Polynomials to the Infinite Interval”. Journal of Research of the National Bureau of Standards, nº 3: 1–6.
Szegö, G. 1939. Orthogonal Polynomials. American Mathematical Society, Colloquium Publications, Providence, Rhode Island.
Videnskii, V. S. 2013. “Papers of L.V. Kantorovich on Bernstein Polynomials”. Vestnik St. Petersburg University: Mathematics, nº 46(2): 85–88.
Vitale, R. A. 1975. “A Bernstein Polynomial Approach to Density Function Estimation”. Statistical Inference and Related Topics, nº 2: 87–99.
Walter, G. G. 1977. “Properties of Hermite Series Estimation of Probability Density”. The Annals of Statistics, nº 6(5): 1258–64.
Watson, G. S., e M. R. Leadbetter. 1964. “Hazard Analysis II”. Sankhyā: The Indian Journal of Statistics, nº Series A, 26: 101–16.
Yamato, H. 1973. “Uniform Convergence of an Estimator of a Distribution Function”. Bulletin of Mathematical Statistics, nº vol. 15, no. 3: 69–78.
Zhang, S., Z. Li, e Z. Zhang. 2020. “Estimating a Distribution Function at the Boundary”. Austrian Journal of Statistics, nº 1: 1–23.