Capítulo IV. Distribuições multivaridas


O capítulo anterior mostrou que usando os dois primeiros momentos de uma distribuição multivariada, ou seja, a média e a matriz de covariâncias, muitas informações sobre a relação entre as variáveis podem ser disponibilizadas. Apenas a teoria estatística básica foi usada para derivar testes de independência ou de relações lineares. Neste capítulo, damos uma introdução às ferramentas básicas de probabilidade úteis na análise estatística multivariada.

Médias e covariâncias compartilham muitas propriedades interessantes e úteis, mas representam apenas parte da informação em uma distribuição multivariada. A Seção IV.1 apresenta as ferramentas básicas de probabilidade usadas para descrever uma variável aleatória multivariada, incluindo distribuições marginais e condicionais e o conceito de independência. Na Seção IV.2, propriedades básicas sobre médias e covariâncias marginais e condicionais são derivadas.

Como muitos procedimentos estatísticos dependem de transformações de uma variável aleatória multivariada, a Seção IV.3 propõe as técnicas básicas necessárias para derivar a distribuição das transformações com ênfase especial nas transformadas lineares. Como um exemplo importante de uma variável aleatória multivariada, a Seção IV.4 define a distribuição multinormal. Será analisado com mais detalhes no Capítulo V juntamente com a maioria de suas distribuições companheiras, que são úteis para fazer inferências estatísticas multivariadas.

A distribuição normal desempenha um papel central nas estatísticas porque pode ser vista como uma aproximação e limite de muitas outras distribuições. A justificativa básica baseia-se no Teorema do Limite Central apresentado na Seção IV.5. Apresentamos este teorema central no quadro da teoria da amostragem. Uma extensão útil deste teorema também é dada: é uma distribuição aproximada para transformações de variáveis assintoticamente normais. O poder crescente dos computadores hoje torna possível considerar distribuições de amostragem aproximadas alternativas. Estes são baseados em técnicas de reamostragem e são adequados para muitas situações gerais. A Seção IV.8 apresenta as ideias por trás das aproximações bootstrap.


IV.1. Funções de densidade e de distribuição


Seja \(X=(X_1,\cdots,X_p)^\top\) um vetor aleatório. A função de distribuição acumulada de \(X\) é definida por \[ F(x) = P(X\leq x) = P(X_1\leq x_1,X_2\leq x_2,\cdots, X_p\leq x_p)\cdot \]

Para \(X\) contínua, se existir uma função não-negativa \(f\) de maneira que \[ F(x) = \int_{-\infty}^x f(u)\mbox{d}u, \]

chama-se função de densidade. Observe que \[ \int_{-\infty}^\infty f(u)\mbox{d}u = 1\cdot \]

A maioria das integrais serão multivariadas. Assim \[ \int_{-\infty}^x f(u)\mbox{d}u, \]

significa \[ \int_{-\infty}^{x_p}\cdots\int_{-\infty}^{x_1} f(u_1,\cdots,u_p)\mbox{d}u_1 \cdots \mbox{d}u_p\cdot \]

Observe também que se a função de distribuição \(F\) for diferenciável, temos \[ f(x) = \dfrac{\partial^p F(x)}{\partial x_1 \cdots\partial x_p}\cdot \]

Para \(X\) discreta, os valores dessa variável aleatória estão concentrados em um conjunto enumerável ou finito de pontos \(\{c_j\}_{j\in J}\), a probabilidade de eventos da forma \(\{X\in D\}\) pode ser calculada como \[ P(X\in D) = \sum_{\{j \, : \, c_j\in D\}} P(X=c_j)\cdot \]

Se participarmos \(X\) como \(X=(X_1,X_2)^\top\) com \(X_1\in \mathbb{R}^k\) e \(X_2\in \mathbb{R}^{p-k}\), então a função \[ F_{X_1}(x_1) = P(X_1\leq x_1) = F(x_{11},\cdots,x_{1k},\infty,\cdots,\infty) \]

será chamada de função de distribuição marginal e \(F\) de função de distribuição conjunta.

Para \(X\) contínua, a função de distribuição marginal pode ser calculada a partir da densidade conjunta integrando as variáveis não de interesse, \[ f_{X_1}(x_1) = \int_{-\infty}^\infty f(x_1,x_2)\mbox{d}x_2\cdot \]

A função de densidade condicional de \(X_2\) dado \(X_1=x_1\) é dada por \[ f(x_2|x_1) = \dfrac{f(x_1,x_2)}{f_{X_1}(x_1)}\cdot \]


Exemplo IV.1.

Considera a função de densidade \[ f(x_1,x_2) = \left\{ \begin{array}{ccl} \frac{1}{2}x_1+\frac{3}{2}x_2, & \mbox{caso} & 0\leq x_1,x_2\leq 1, \\ 0, & \mbox{caso} & \mbox{contrário}\end{array}\right. \]

\(f(x_1,x_2)\) é função de densidade desde que \[ \int f(x_1,x_2)\mbox{d}x_1 \mbox{d}x_2 = \dfrac{1}{2}\left.\frac{x_1^2}{2} \right|_0^1 + \dfrac{3}{2}\left.\frac{x_2^2}{2} \right|_0^1 = \dfrac{1}{4}+\dfrac{3}{4}=1\cdot \]

As funções de densidade condicionais são \[ f(x_2|x_1) = \dfrac{\frac{1}{2}x_1+\frac{3}{2}x_2}{\frac{1}{2}x_1+\frac{3}{4}} \qquad \mbox{e} \qquad f(x_1|x_2) = \dfrac{\frac{1}{2}x_1+\frac{3}{2}x_2}{\frac{3}{2}x_2+\frac{1}{4}} \cdot \]

Observe que essas funções de densidade condicionais são não lineares em \(x_1\) e\(x_2\), embora a função de densidade conjunta tenha uma estrutura simples linear.


A independência de duas variáveis aleatórias é definida como segue.


Definição IV.1.

As variáveis aleatórias \(X_1\) e \(X_2\) são independentes se, e somente se, \[ f(x)=f(x_1,x_2) = f_{X_1}(x_1)f_{X_2}(x_2) \qquad \mbox{para todo par de pontos} \quad (x_1,x_2)\cdot \]


Ou seja, \(X_1\) e \(X_2\) são independentes se as funções de densidade condicionais forem iguais às densidades marginais, isto é, se \[ f(x_1|x2) = f_{X_1}(x_1) \qquad \mbox{e} \qquad f(x_2|x_1) = f_{X_2}(x_2)\cdot \]

A independência pode ser interpretada da seguinte forma: O conhecimento do \(X_2=x_2\) não altera as avaliações de probabilidade em \(X_1\) e, inversamente. Diferentes funções de densidade conjuntas podem ter as mesmas funções de densidade marginais.


Exemplo IV.1.

Considera as seguintes funções de densidade \[ f(x_1,x_2) = 1, \qquad 0< x_1,x_2 <1 \] e

\[ f(x_1,x_2) = 1+\alpha (2x_1-1)(2x_2-1), \qquad 0< x_1,x_2<1, \; -1\leq \alpha\leq 1\cdot \]

Calculando em ambos casos, as funções de densidade marginais são \[ f_{X_1}(x_1) = 1, \qquad f_{X_2}(x_2)=1\cdot \] De fato \[ \int_0^1 \big( 1+\alpha (2x_1-1)(2x_2-1)\big)\mbox{d}x_2 = 1+\alpha (2x_1-1)\left. (x_2^2-x_2)\right|_0^1 = 1\cdot \]

Portanto, obtemos marginais idênticas de diferentes distribuições conjuntas.


Vamos estudar o conceito de independência usando o exemplo das notes bancárias suíças. Considere as variáveis \(X_4\) e \(X_5\). Do Capítulo III sabemos que eles têm correlação significativa, então quase certamente não são independentes. As estimativas kernel das densidades marginais, \(\widehat{f}_{X_4}\) e \(\widehat{f}_{X_5}\), são apresentadas na figura abaixo.


library(mclust)
data(banknote)
par(mfrow = c(1,2), mar = c(4,4,1,1))
plot(density(banknote[,5]), ylab = "Densidade", xlab = expression(X[4]), main = "Notas bancárias suíças")
plot(density(banknote[,6]), ylab = "Densidade", xlab = expression(X[5]), main = "Notas bancárias suíças")


Agora, na figura abaixo mostramos o resultado da utilização da técnica de densidade do kernel multivariada, apresentada na Seção I.3, para as variáveis \(X_4\) (Bottom) e \(X_5\) (Top). A esquerda mostramos a densidade estimada de duas variáveis indepndentes e a direita a curva kernel estimada para as variáveis \(X_4\) e \(X_5\). Se \(X_4\) e \(X_5\) fosem independentes estas curvas seriam parecidas. Comparando os dois gráficos na figura revelam que as duas densidades são diferentes. As duas variáveis \(x_4\) e \(x_5\) não são independentes.


library(MASS)
X = rnorm(mean(banknote[,5]), sd = sd(banknote[,5]), n = 200)
Y = rnorm(mean(banknote[,6]), sd = sd(banknote[,6]), n = 200)
par(mfrow = c(1,2), mar = c(1,1,1,1))
persp(kde2d(X,Y), phi = 30, theta = 20, d = 5, xlab = "X", ylab = "Y")
persp(kde2d(banknote[,5],banknote[,6]), phi = 30, theta = 20, d = 5, 
      xlab = "Bottom", ylab = "Top")


Um conceito elegante de conexão marginais com funções de distribuição é dado por copulas. As cópias ou copulas são importantes nos cálculos de valor em risco e são uma ferramenta essencial em finanças quantitativas (Härdle, Hautsch and Overbeck, 2009).

Por simplicidade de apresentação nos concentraremos no caso bidimensional \(p=2\). Uma copula bidimensional é uma função \(C \, : \, [0,1]^2 \to [0,1]\) com a seguintes propriedades:
• Para todo \(u\in [0,1]\): \[ C(0,u) = C(u,0) =0\cdot \]


• Para todo \(u\in[0,1]\): \[ C(u,1) =u \qquad \mbox{e} \qquad C(1,u) =u \cdot \]


• Para todo \((u_1,u_2),(v_1,v_2)\in [0,1]\times [0,1]\) com \(u_1\leq v_1\) e \(u_2\leq v_2\): \[ C(v_1,v_2) - C(v_1,u_2) - C(u_1,v_2) + C(u_1,u_2) \geq 0\cdot \]

O uso do nome copula para a função \(C\) é explicado pelo teorema a seguir.


Teorema IV.1. (Teorema de Sklar)

Seja \(F\) uma função de distribuição conjunta com funções de distribuição marginal \(F_{X_1}\) e \(F_{X_2}\). Então existe uma copula \(C\) com \[ F(x_1,x_2) = C\big( F_{X_1}(x_1), F_{X_2}(x_2)\big), \]

para todo \(x_1,x_2\in\mathbb{R}\). Se \(F_{X_1}\) e \(F_{X_2}\) forem contínuas, então \(C\) é única. Por outro lado, se \(C\) é uma ccpula e \(F_{X_1}\) e \(F_{X_2}\) são funções de distribuição, a função \(F\) definida copmo acima é uma função de distribuição conjunta com marginais \(F_{X_1}\) e \(F_{X_2}\).


Com o teorema de Sklar, o uso do nome copula se torna óbvio. Foi escolhido por descrever uma função que vincula uma distribuição multidimensional às suas marginais unidimensionais e apareceu na literatura matemática pela primeira vez em Sklar (1959).


Exemplo IV.3.

A estrutura da independência implica que o produto das funções de distribuição \(F_{X_1}\) e \(F_{X_2}\) é igual à sua função de distribuição conjunta \(F\), \[ F(x_1,x_2) = F_{X_1}(x_1)F_{X_2}(x_2)\cdot \]

Assim, obtemos a copula de independência \(C=\prod\), como \[ \prod (u_1,\cdots,u_n) = \prod_{i=1}^n u_i\cdot \]


Teorema IV.2.

Sejam \(X_1\) e \(X_2\) variáveis aleatórias com funções de distribuição contínua \(F_{X_1}\) e \(F_{X_2}\) e função de distribuição da conjunta \(F\). Então \(X_1\) e \(X_2\) são independentes se, e somente se, \(C_{X_1,X_2}=\prod\).


Demonstração

Do Teorema de Sklar sabemos a existência única da copula \(C\) satisfazendo \[ P(X_1\leq x_1, X_2\leq x_2) = F(x_1,x_2) = C\big(F_{X_1}(x_1),F_{X_2}(x_2) \big)\cdot \]

A independência pode ser vista pela definição de \(C\) para a função de distribuição conjunta \(F\) e a definição de \(\prod\), \[ F(x_1,x_2)=C\big( F_{X_1}(x_1), F_{X_2}(x_2)\big) = F_{X_1}(x1)F_{X_2}(x_2)\cdot \]



Exemplo IV.3.

A família de copulas Gumbel-Hougaard (Nelsen, 1999) é dada pela função \[ C_\theta(u,v) = \exp\left( -\Big( \big(-\log(u)\big)^\theta + \big( -\log(v)\big)^\theta \Big)^{1/\theta}\right)\cdot \]

O parâmetro \(\theta\) pode assumir todos os valores no intervalo \([1,\infty)\). As copulas Gumbel-Hougaard são adequadas para descrever distribuições de valor extremo bivariado.

Para \(\theta=1\), a expressão acima se reduz à copula produto, ou seja, \[ C_1(u,v)=\prod(u,v)=u\times v\cdot \]

Para \(\theta\to\infty\) encontramos para esta copula que \[ C\theta(u,v) \to \min(u,v) = M(u,v), \]

onde a função \(M\) também é uma copula tal que \(C(u,v)\leq M(u,v)\) para uma copula arbitrária \(C\). A copula \(M\) é chamado de limite superior de Fréchet-Hoeffding.

Da mesma forma, obtemos o limite inferior de Fréchet-Hoeffding \[ W(u,v)=\max(u+v-1,0), \]

que satisfaz \(W(u,v)\leq C(u,v)\) para qualquer outra copula \(C\).


IV.2 Momentos e funções características



Momentos: esperança e matriz de covariâncias


Se \(X\) é um vetor aleatório com densidade \(f(x\) a esperança de \(X\) é \[ \mbox{E}(X) = \begin{pmatrix} \mbox{E}(X_1) \\ \vdots \\ \mbox{E}(X_p) \end{pmatrix}= \int x f(x)\mbox{d}x = \begin{pmatrix} \displaystyle \int x_1 f(x)\mbox{d}x \\ \vdots \\ \displaystyle \int x_p f(x)\mbox{d}x \end{pmatrix} = \mu\cdot \]

Consequentemente, a esperança de uma matriz de elementos aleatórios deve ser compreendida componente por componente. A operação de formar esperanças é linear: \[ \mbox{E}(\alpha X+\beta Y) = \alpha \mbox{E}(X)+\beta \mbox{E}(Y)\cdot \]

Se \(A_{q\times p}\) for uma matriz de elementos reais, temos: \[ \mbox{E}(A X) = A\mbox{E}(X)\cdot \]

Quando \(X\) e \(Y\) são independentes

\[ \mbox{E}(X Y^\top) = \mbox{E}(X) \mbox{E}(Y^\top)\cdot \]

A matriz \[ \mbox{Var}(X) = \Sigma = \mbox{E}(X-\mu)(X-\mu)^\top \] é a matriz de covariâncias teórica. Escrevemos para um vetor \(X\) com matriz de vetor médio e covariâncias \(\Sigma\), \[ X \sim (\mu,\Sigma)\cdot \]

A matriz \(p\times q\) \[ \Sigma_{XY} = \mbox{Cov}(X,Y) = \mbox{E}(X-\mu)(Y-\nu)^\top \]

é a matriz de covariancias de \(X\sim (\mu,\Sigma_{XX})\) e \(Y \sim (\nu,\Sigma_{YY})\). Observe que \(\Sigma_{XY}=\Sigma_{YX}^\top\) e que \[ Z = \begin{pmatrix} X \\ Y \end{pmatrix} \qquad \mbox{ têm covariancias} \qquad \Sigma_{ZZ}=\begin{pmatrix} \Sigma_{XX} & \Sigma_{XY} \\ \Sigma_{YX} & \Sigma_{YY} \end{pmatrix}\cdot \]

Dado que \[ \mbox{Cov}(X,Y) = \mbox{E}(XY^\top) -\mu \nu^\top = \mbox{E}(XY^\top) -\mbox{E}(X)\mbox{E}(Y^\top) \] segue que \(\mbox{Cov}(X,Y)=0\) no caso \(X\) e \(Y\) independentes. Ainda dizemos que \(\mu=\mbox{E}(X)\) é o momento de primeira ordem de \(X\) e que \(\mbox{E}(XX^\top)\) fornece os momentos de segunda ordem de \(X\): \[ \mbox{E}(XX^\top) = \{\mbox{E}(X_i X_j)\}, \qquad \mbox{para} \; i=1,\cdots,p \; \mbox{e} \; j=1,\cdots,p\cdot \]


Propriedades da matriz de covariâncias \(\Sigma=\mbox{Var}(X)\)


\[ \Sigma = \big( \sigma_{X_i X_j}\big), \qquad \sigma_{X_i X_j} = \mbox{Cov}(X_i,X_j), \qquad \sigma_{X_i X_i} = \mbox{Var}(X_i), \]

\[ \Sigma = \mbox{E}(XX^\top) -\mu\mu^\top, \]

e

\[ \Sigma \geq 0\cdot \]


Propriedades da variância e covariâncias


\[ \mbox{Var}(a^\top X) = a^\top \mbox{Var}(X) a = \sum_{i,j} a_i a_j \sigma_{X_i X_j}, \]

\[ \mbox{Var}(A X+ b) = A\mbox{Var}(X)A^\top, \]

\[ \mbox{Cov}(A+Y,Z) = \mbox{Cov}(X,Z)+\mbox{Cov}(Y,Z), \]

\[ \mbox{Var}(X+Y)=\mbox{Var}(X)+\mbox{Cov}(X,Y)+\mbox{Cov}(Y,X)+\mbox{Var}(Y), \] e

\[ \mbox{Cov}(AX, BY)) = A\mbox{Cov}(X,Y) B^\top\cdot \]

Vamos calcular essas quantidades para uma densidade específica.


Exemplo IV.5.

Considere a função de densidade conjunta do Exemplo IV.1. Então \[ \mu_1 = \int \int x_1 f(x_1,x_2)\mbox{d}x_1\mbox{d}x_2 = \int_0^1 \int_0^1 x_1 \left(\frac{1}{2}x_1+\frac{3}{2}x_2 \right)\mbox{d}x_1\mbox{d}x_2 = \dfrac{13}{24}, \]

\[ \mu_2 = \int \int x_2 f(x_1,x_2)\mbox{d}x_1\mbox{d}x_2 = \int_0^1 \int_0^1 x_2 \left(\frac{1}{2}x_1+\frac{3}{2}x_2 \right)\mbox{d}x_1\mbox{d}x_2 = \dfrac{5}{8}\cdot \]

Os elementos da matriz de covariâncias são \[ \sigma_{X_1 X_1} = \mbox{E}(X_1^2) -\mu_1^2, \]

com \[ \mbox{E}(X_1^2) = \int_0^1 \int_0^1 x_1^2 \left(\frac{1}{2}x_1+\frac{3}{2}x_2 \right)\mbox{d}x_1\mbox{d}x_2 = \dfrac{3}{8}, \]

\[ \sigma_{X_2 X_2} = \mbox{E}(X_2^2) -\mu_2^2, \]

com \[ \mbox{E}(X_2^2) = \int_0^1 \int_0^1 x_2^2 \left(\frac{1}{2}x_1+\frac{3}{2}x_2 \right)\mbox{d}x_1\mbox{d}x_2 = \dfrac{11}{24}, \] e \[ \sigma_{X_2 X_2} = \mbox{E}(X_1 X_2) -\mu_1 \mu_2, \] com \[ \mbox{E}(X_1 X_2) = \int_0^1 \int_0^1 x_1 x_2 \left(\frac{1}{2}x_1+\frac{3}{2}x_2 \right)\mbox{d}x_1\mbox{d}x_2 = \dfrac{1}{3}\cdot \]

Portanto, amatriz de covariâncis é \[ \Sigma = \begin{pmatrix} 0.0815 & 0.0052 \\ 0.0052 & 0.0677 \end{pmatrix}\cdot \]


Experanças condicionais


\[ \mbox{E}(X_2 \, | \, x_1) = \int x_2 f(x_2 \, | \, x_1)\mbox{d}x_2 \qquad \mbox{e} \qquad \mbox{E}(X_1 \, | \, x_2) = \int x_1 f(x_1 \, | \, x_2)\mbox{d}x_1\cdot \]

\(\mbox{E}(X_2 \, | \, x_1)\) representa o parâmetro de localização da função de densidade condicional de \(X_2\), dado que \(X_1=x_1\). Da mesma forma, podemos definir \(\mbox{Var}(X_2 \, | \, X_1=x_1)\) como uma medida da dispersão de \(X_2\), dado que \(X_1=x_1\).

Temos que \[ \mbox{Var}(X_2 \, | \, X_1=x_1) = \mbox{E}(X_2 X_2^\top \, | \, X_1=x_1) - \mbox{E}(X_2 \, | \, X_1=x_1)\mbox{E}(X_2^\top \, | \, X_1=x_1)\cdot \]

Usando a matriz de covariância condicional, as correlações condicionais podem ser definidas como: \[ \rho_{X_2 X_3 \, | \, X_1=x_1} = \dfrac{\mbox{Cov}(X_2,X_3 \, | \, X_1=x_1)}{\sqrt{\mbox{Var}(X_2 \, | \, X_1=x_1) \mbox{Var}(X_3 \, | \, X_1=x_1)}} \cdot \]

Essas correlações condicionais são conhecidas como correlações parciais entre \(X_2\) e \(X_3\), condicionadas a \(X_1\) sendo igual a \(x_1\).


Exemplo IV.6.

Considere a seguinte função de densidade conjunta \[ f(x_1,x_2,x_3) = \frac{2}{3}(x_1+x_2+x_3), \qquad \mbox{onde} \quad 0<x_1,x_2,x_3<1\cdot \]

Observe que a função de densidade conjunta é simétrica em \(x_1,x_2\) e \(x_3\) o qual facilta os cálculos. Por exemplo, \[ f(x_1,x_2) = \frac{2}{3}(x_1+x_2+\frac{1}{2}), \qquad 0<x_1,x_2<1 \] e \[ f(x_1)=\frac{2}{3}(x_1+1), \qquad 0<x_1<1 \] e as outras funções marginais são similares. Também temos \[ f(x_1,x_2 \, | \, x_3) = \dfrac{x_1+x_2+x_3}{x_3+1}, \qquad 0<x_1,x_2< 1 \]

e

\[ f(x_1 \, | \, x_3) =\dfrac{x_1+x_3+\frac{1}{2}}{x_3+1}, \qquad 0<x_1< 1\cdot \]

Encontremos os seguintes momentos: \[ \mbox{E}(X_i)=\frac{5}{9}, \quad \mbox{E}(X_i^2)=\frac{7}{18}, \quad \mbox{E}(X_i X_j) = \frac{11}{36}, \quad i,j=1,2,3\cdot \]

\[ \mbox{E}(X_1 \, | \, X_3=x_3) = \mbox{E}(X_2 \, | \, X_3=x_3) = \frac{1}{12}\left( \dfrac{6 x_3+7}{x_3+1} \right), \]

\[ \mbox{E}(X_1^2 \, | \, X_3=x_3) = \mbox{E}(X_2^2 \, | \, X_3=x_3) = \frac{1}{12}\left( \dfrac{4 x_3+5}{x_3+1} \right) \]

e \[ \mbox{E}(X_1X_2 \, | \, X_3=x_3) = \frac{1}{12}\left( \dfrac{3 x_3+4}{x_3+1} \right)\cdot \]

Observe que as esperanças condicionais de \(X_1\) e de \(X_2\), dado \(X_3=x_3\), não são lineares em \(x_3\). A partir desses momentos, obtemos: \[ \Sigma = \begin{pmatrix} \frac{13}{162} & -\frac{1}{324} & -\frac{1}{324} \\ -\frac{1}{324} & \frac{13}{162} & -\frac{1}{324} \\ -\frac{1}{324} & -\frac{1}{324} & \frac{13}{162}\end{pmatrix} \]

em particular \[ \rho_{X_1 X_2} = -\dfrac{1}{26} \approx -0.0385\cdot \]

A matriz de covariâncias condicionais de \(X_1\) e \(X_2\) dadao \(X_3=x_3\) é \[ \mbox{Var}\left( \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \, | \, X_3=x_3 \right) = \begin{pmatrix} \dfrac{12x_3^2+24 x_3 +11}{144 (x_3+1)^2} & -\dfrac{1}{144(x_3+1)^2} \\ -\dfrac{1}{144 (x_3+1)^2} & \dfrac{12 x_3^2+24 x_3 +11}{144 (x_3+1)^2} \end{pmatrix}\cdot \]

Em particular, a correlação parcial entre \(X_1\) e \(X_2\), dado que \(X_3\) é fixada em \(x_3\) é dada por \[ \rho_{X_1 X_2 \, | \, X_3=x_3} = -\dfrac{1}{12 x_3^2+24 x_3+11}, \] que varia de -0.0909 a -0.0213 quando \(x_3\) passa de 0 a 1. Portanto, portanto, neste exemplo, a correlação parcial pode ser maior ou menor que a correlação simples, dependendo do valor da condição \(X_3=x_3\).



Exemplo IV.7

Considere a seguinte função de densidade conjunta \[ f(x_1,x_2,x_3) = 2x_2 (x_1+x_3), \qquad 0<x_1,x_2,x_3<1\cdot \]

Observe a simetria de \(x_1\) e \(x_3\) na função de densidade conjunta e que \(X_2\) é independente de \(X_1,X_3\). Segue-se imediatamente que \[ f(x_1,x_3)= (x_1+x_3), \qquad 0<x_1,x_3<1, \]

\[ f(x_1) = x_1+\frac{1}{2}, \]

\[ f(x_2)=2x_2 \] e

\[ f(x_3)=x_3+\frac{1}{2}\cdot \]

Cálculos simples levam a \[ \mbox{E}(X) = \begin{pmatrix} \frac{7}{12} \\ \frac{2}{3} \\ \frac{7}{12} \end{pmatrix}, \qquad \Sigma = \begin{pmatrix} \frac{11}{144} & 0 & -\frac{1}{144} \\ 0 & \frac{1}{18} & 0 \\ -\frac{1}{144} & 0 & \frac{11}{144}\end{pmatrix}\cdot \]

Vamos analisar a distribuição condicional de \((X_1,X_2)\) dado \(X_3=x_3\). Nós temos \[ f(x_1,x_2 \, | \, x_3) = \dfrac{4(x_1+x_3)x_2}{2 x_3+1}. \qquad 0<x_1,x_2<1, \]

\[ f(x_1 \, | \, x_3) = 2 \left( \dfrac{x_1+x_3}{2x_3+1}\right), \qquad 0<x_1<1 \]

e

\[ f(x_2 \, | \, x_3) = f(x_2) = 2 x_2, \qquad 0<x_2<1\cdot \]

De modo que, novamente, \(X_1\) e \(X_2\) são condicionais independentes em \(X_3=x_3\). Nesse caso

\[ \mbox{E}\left( \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \, | \, X_3=x_3 \right) = \begin{pmatrix} \dfrac{1}{3}\left( \dfrac{2+3x_3}{1+2x_3}\right) \\ \dfrac{2}{3} \end{pmatrix} \]

e

\[ \mbox{Var}\left( \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} \, | \, X_3=x_3 \right) = \begin{pmatrix} \dfrac{1}{18}\left( \dfrac{6x_3^2+ 6x_3+1}{(2x_3+1)^2}\right) & 0 \\ 0 & \dfrac{1}{18} \end{pmatrix}\cdot \]


Propriedades da esperança condicional


Como \(\mbox{E}(X_2 \, | \, X_1=x_2)\) é uma função de \(x_1\), digamos \(h(x_1)\), podemos defiir a variável aleatória \(h(X_1)=\mbox{E}(X_1 \, | \, X_1)\). O mesmo pode ser feito quando definimos a variável aleatória \(\mbox{Var}(X_2 \, | \, X_1)\). Estas duas variáveis aleatórias compartem propriedades interessantes: \[ \mbox{E}(X_2) = \mbox{E}\big( \mbox{E}(X_2 \,| \,X_1)\big) \] e \[ \mbox{Var}(X_2)= \mbox{E}\big( \mbox{Var}(X_2 \, | \, X_1)\big)+ \mbox{Var}\big( \mbox{E}(X_2 \, | \, X_1)\big)\cdot \]


Exemplo IV.8.

Considere a seguinte função de densidade conjunta \[ f(x_1,x_2)=2\exp\big(-x_2/x_1 \big), \qquad 0<x_1<1; \quad x_2>0\cdot \]

Pode-se mostrar que \[ f(x_1)=2x_1, \quad \mbox{para} \quad 0<x_1<1; \qquad \mbox{E}(X_1)=2/3 \quad \mbox{e} \quad \mbox{Var}(X_1)=1/18\cdot \] Também \[ f(x_2 \, | \, x_1)=\frac{1}{x_1}\exp\big( -x_2/x_1\big) \quad \mbox{para} \quad x_2>0; \quad \mbox{E}(X_2 \, | \, X_1)=X_1 \quad \mbox{e} \quad \mbox{Var}(X_2 \, | \, X_1)=X_1^2\cdot \]

Obtemos também que \[ \mbox{E}(X_2)= \mbox{E}\big( \mbox{E}(X_2 \, | \, X_1)\big) = \mbox{E}(X_1)=2/3 \]

\[ \mbox{Var}(X_2)=\mbox{E}\big( \mbox{Var}(X_2 \, | \, X_1)\big)+\mbox{Var}\big(\mbox{E}(X_2 \, | \, X_1) \big) = \mbox{E}(X_1^2)+\mbox{Var}(X_1)=2/4+1/18=10/18\cdot \]

A esperança condicional \(\mbox{E}(X_2 \, | \, X_1)\) vista como uma função \(h(X_1)\) de \(X_1\), conhecida como função de regressão de \(X_2\) em \(X_1\), pode ser interpretada como uma aproximação condicional de \(X_2\) por uma função de \(X_1\). O termo de erro da aproximação é então dado por: \[ U=X_2-\mbox{E}(X_2 \, | \, X_1)\cdot \]


Teorema IV.3.

Seja \(X_1\in\mathbb{R}^k\), \(X_2\in\mathbb{R}^{p-k}\) e \(U=X_2-\mbox{E}(X_2 \, | \, X_1)\). Então, temos que \(\mbox{E}(U)=0\) e \(\mbox{E}(X_2 \, | \, X_1\) é a melhor aproximação de \(X_2\) pela função \(h(X_1)\) de \(X_1\) onde \(h \, : \, \mathbb{R}^k\to\mathbb{R}^{p-k}\). Melhor no sentido do erro quadrático médio (EQM), onde \[ EQM(h)=\mbox{E}\Big(\big(X_2-h(X_1)\big)^\top \big( X_2-h(X_1)\big)\Big)\cdot \]



IV.2.1. Funções características


A função característica de um vetor aleatório \(X\in\mathbb{R}^p\), respectivamente sua densidade \(f(x)\) é definida como \[ \varphi_X(t)=\mbox{E}(e^{it^\top X}) = \int e^{it^\top x} f(x)\mbox{d}x, \qquad t\in\mathbb{R}^p, \]

onde \(i\) é a unidade complexa, ou seja, \(i^2=-1\). A função característica possui as seguintes propriedades: \[ \varphi_X(0)=1 \qquad \mbox{e} \qquad |\varphi_X(t)|\leq 1\cdot \]

Se \(\varphi\) for absolutamente integrável, ou seja, se \(\displaystyle\int|\varphi_X(t)|\mbox{d}t\) existe e for finita, então \[ f(x)=\dfrac{1}{(2\pi)^p}\int_{-\infty}^\infty e^{it^\top x} \varphi_X(t)\mbox{d}t\cdot \]

Se \(X=(X_1,X_2,\cdots,X_p)^\top\), então para \(t=(t_1,t_2,\cdots,t_p)^\top\) \[ \varphi_{X_1}(t_1)=\varphi_X(t_1,0,\cdots,0), \cdots, \varphi_{X_p}(t_p)=\varphi_X(0,\cdots,0,t_p)\cdot \]

Se \(X_1,\cdots,X_p\) forem variáveis aleatórias independentes, então para \(t\in\mathbb{R}\) \[ \varphi_{X_1\cdots+X_p}(t)=\varphi_{X_1}(t)\times \cdots \times \varphi_{X_p}(t)\cdot \]

A função característica pode recuperar todos os momentos produtos cruzados de qualquer ordem: \(\forall j_k\geq 0\), \(k=1,\cdots,p\) e para \(t=(t_1,\cdots,t_p)^\top\) temos \[ \mbox{E}\Big( X_1^{j_1}\times \cdots X_p^{j_p}\Big) = \dfrac{1}{i^{j_1+\cdots+j_p}}\left.\left(\dfrac{\partial \varphi_X(t)}{\partial t_1^{j_1}\times \cdots \times\partial t_p^{j_p} } \right)\right|_{t=0}\cdot \]


Exemplo IV.9

A função característica da função de densidade do Exemplo IV.5 é dada por \[ \varphi_X(t) = \int_0^1 \int_0^1 e^{it^\top x}f(x)\mbox{d}x = \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \\ \qquad \qquad \qquad \qquad \qquad \int_0^1 \int_0^1 \Big(\cos(t_1 x_1+t_2 x_2)+i\sin(t_1 x_1+t_2 x_2) \Big) \Big( \dfrac{1}{2}x_1+\dfrac{3}{2}x_2\Big)\mbox{d}x_1 \mbox{d}x_2, \]

a qual assume o valor \[ \dfrac{0.5 e^{it_1}\big( 3 i t_1-3ie^{it_2}t_1+it_2-ie^{it_2}t_2+t_1t_2-4e^{it_2}t_1t_2\big)}{t_1^2t_2^2} \qquad \qquad \qquad \qquad \qquad \qquad \qquad \\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad - \dfrac{0.5 \big( 3 i t_1-3ie^{it_2}t_1+it_2-ie^{it_2}t_2-3e^{it_2}t_1t_2\big)}{t_1^2t_2^2}\cdot \]


Exemplo IV.10

Suponha que \(X\in\mathbb{R}\) siga a densidade normal padrão \[ f_X(x)=\dfrac{1}{\sqrt{2\pi}}\exp\big( -x^2/2\big), \]

vemos que a função característica assume a forma \[ \begin{array}{rcl} \varphi_X(t) & = & \displaystyle \dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx} \exp\big( -x^2/2\big)\mbox{d}x \\ & = & \displaystyle \dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \exp\big( -(x^2-2itx+i^2t^2)/2\big)\exp\big(i^2t^2/2\big)\mbox{d}x \\ & = & \exp\big(-t^2/2 \big)\displaystyle \int_{-\infty}^\infty \dfrac{1}{\sqrt{2\pi}}\exp\big( -(x-it)^2/2\big)\mbox{d}x \\ & = & \exp\big(-t^2/2 \big), \end{array} \] desde que \(i^2=-1\) e \(\displaystyle \int_{-\infty}^\infty \dfrac{1}{\sqrt{2\pi}}\exp\big( -(x-it)^2/2\big)\mbox{d}x=1\).


Uma variedade de funções características podem ser calculadas a partir da definição de \(\varphi_X(t)\). A distribuição normal padrão possui uma função característica muito simples, como foi visto no Exemplo IV.10. Os desvios das estruturas normais de covariância podem ser medidos pelos desvios da função características dela. A seguir fornecemos uma visão geral dos funções características para uma variedade de distribuições:
Uniforme: \(f(x)=\dfrac{1}{b-a}\mbox{I}(x\in [a,b])\), \(\varphi_X(t)=\dfrac{e^{ibt}-e^{iat}}{(b-a)it}\),
Normal: \(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\big(-(x-\mu)^2/2\sigma^2 \big)\), \(\varphi_X(t)=e^{i\mu t -\sigma^2 t^2/2}\),
\(\chi^2(n)\): \(f(x)=\dfrac{x^{n/2-1} e^{-x/2}}{\Gamma(n/2)2^{n/2}}\mbox{I}(x\geq 0)\), \(\varphi_X(t)=(1-2it)^{n/2}\),
\(N_p(\mu,\Sigma)\): \(f(x)=\dfrac{1}{|2\pi\Sigma|^{-1/2}} \exp\big( -(x-\mu)^\top \Sigma (x-\mu)/2\big)\), \(\varphi_X(t)=\exp\big( it^\top \mu -t^\top \Sigma t/2 \big)\).


Teorema IV.4. (Cramer-Wald)

A distribuição de \(X\in\mathbb{R}^p\) é completamente determinada pelo conjunto de todas as distribuições uni-dimensionais de \(t~\top X\), onde \(t\in\mathbb{R}^p\).


Este teorema diz que podemos determinar a distribuição de \(X\) em \(\mathbb{R}^P\) especificando todas as distribuições unidimensionais das combinações lineares \[ \sum_{j=1}^p t_j X_j = t^\top X, \qquad t=(t_1,\cdots,t_p)^\top\cdot \]


IV.2.2. Funções cumulantes


Momentos \(m_k=\displaystyle \int x^k f(x)\mbox{d}x\) geralmente ajudam a descrever as características das distribuições. A distribuição normal uni-dimensional \(d=1\) é completamente caracterizada pela densidade normal padrão \(f=\psi\) e os parâmetros dos momentos \(\mu=m_1\) e \(\sigma^2=m_2-m^2_1\). Outra classe útil de parâmetros são os cumulantes ou semiinvariantes de uma distribuição.

Para simplificar a notação, nos concentramos aqui no Caso unidimensional, \(d=1\). Para uma determinada variável aleatória \(X\) com densidade \(f\) e momentos finitos de ordem \(k\) a função característica \(\varphi_X(t)=\mbox{E}\big( e^{itX}\big)\) de derivadas \[ \dfrac{1}{i^j} \left.\left( \dfrac{\partial^j \log\big(\varphi_X(t) \big)}{\partial t^j}\right)\right|_{t=0}=\kappa_j, \qquad j=1,\cdots,k\cdot \]

Os valores \(\kappa_j\) são chamados de cumulantes ou semi-invariantes, pois \(\kappa_j\) não muda, para \(j > 1\), sob uma transformação de deslocamento \(X\to X+a\). Os cumulantes são parâmetros naturais para métodos de redução de dimensão, em particular o Método Projeção Pursuit, ver Seção XX.2.

A relação entre os primeiros \(K\) momentos \(m_1,\cdots,m_k\) e os cumuladores são dados por \[ \kappa_k = (-1)^{k-1}\left| \begin{pmatrix} m_1 & 1 & \cdots & 0 \\ m_2 & {1 \choose 0} m_1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ m_k & {k-1 \choose 0}m_{k-1} & \cdots & {k-1 \choose k-2}m_1\end{pmatrix}\right|\cdot \]


Exemplo IV.11.

Suponha que \(k=1\). Então, pela fórmula acima temos \(\kappa_1=m_1\). Para \(k=2\), \[ \kappa_2 = -1\times \left| \begin{pmatrix} m_1 & 1 \\ m_2 & {1 \choose 0}m_{1} \end{pmatrix}\right|=m_2-m_1^2\cdot \]

Para \(k=3\), temos \[ \kappa_3 = -1\times \left| \begin{pmatrix} m_1 & 1 & 0 \\ m_2 & m_1 & 1 \\ m_3 & m_2 & 2m_1 \end{pmatrix}\right|=m_3-3 m_1m_2+2m_1^3\cdot \]

Similarmente, \[ \kappa_4 = m_4-4 m_3m_1-3m_2^2+ 12m_2 m_1^2-6m_1^4\cdot \]

O mesmo tipo de processo é usado para encontrar os momentos dos cumulantes: \[ m_1=\kappa_1, \] \[ m_2=\kappa_2+\kappa_1^2, \]

\[ m_3=\kappa_3+3 \kappa_2\kappa_1+\kappa_1^3, \]

e

\[ m_4=\kappa_4+4\kappa_3\kappa_1+3\kappa_2^2+6\kappa_2\kappa_1^2+\kappa_1^4\cdot \]

Um relacionamento muito simples pode ser observado entre os semi-invariantes e os momentos centrais \(\mu_k=\mbox{E}(X-\mu)^k\), onde \(\mu=m_1\) como antes. De fato, \(\kappa_2=\mu_2\), \(\kappa_3=\mu_3\) e \(\kappa_4=\mu_4-3\mu_2^2\).

Os coeficientes de assmetria ou kewness \(\gamma_3\) e de curtose \(\gamma_4\) são definidos como: \[ \gamma_3 = \mbox{E}(X-\mu)^3/\sigma^3 \] e \[ \gamma_4 = \mbox{E}(X-\mu)^4/\sigma^4\cdot \]

A assimetria e a curtose determinam a forma das distribuições unidimensionais. A assimetria de uma distribuição normal é 0 e a curtose é igual a 3. A relação desses parâmetros com os cumulantes é dada por: \[ \gamma_3=\dfrac{\kappa_3}{\kappa_2^{3/2}}\cdot \]

Então \[ \gamma_4=\dfrac{\kappa_4+2\kappa_2^2+\kappa_1^4-m_1^4}{\sigma^4}=\dfrac{\kappa_4+3\kappa_2^ 2}{\kappa_2^2}=\dfrac{\kappa_4}{\kappa_2^2}+3\cdot \]

Essas relações serão usadas posteriormente na Seção XX.2 na busca de Projeção Pursuit para determinar os desvios da normalidade.


IV.3. Transformações


Suponha que \(X\sim f_X(x)\). Qual é a função de densidade de \(Y=2X\)? ou, se \(X=(X_1,X_2,X_3)^\top\), qual é a função de densidade de \[ Y=\begin{pmatrix} 3X_1 \\ X_1-4X_2 \\ X_3 \end{pmatrix}? \]

Este é um caso especial de perguntar a função de densidade de \(Y\) quando \(X=u(Y)\) para uma transformação um-a-um \(u \,: \, \mathbb{R}^p\to\mathbb{R}^p\).

Definamos o Jacobiano de \(u\) como \[ J = \begin{pmatrix} \dfrac{\partial x_i}{\partial y_j} \end{pmatrix} = \begin{pmatrix} \dfrac{\partial u_i(y)}{\partial y_j} \end{pmatrix} \] e seja \(|J|\) o valor absoluto do determinante desse Jacobiano. A função de densidade de \(Y\) é dada por \[ f_Y(y)=f_X\big(u(y)\big)|J|\cdot \]

Usando isso, podemos responder às perguntas introdutórias, ou seja, \[ (x_1,\cdots,x_p)^\top = u(y_1,\cdots,y_p)=\frac{1}{3}(y_1,\cdots,y_p)^\top \]

com \[ J=\begin{pmatrix} \frac{1}{3} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \frac{1}{3} \end{pmatrix} \]

e, portanto, \(|J|=(1/3)^p\). Então, a função de densidade de \(Y\) é \[ f_Y(y)=\frac{1}{3^p}f_X(y/3)\cdot \]

Este exemplo introdutório é um caso especial de \[ Y=AX+b, \] onde \(A\) é uma matriz não-singular.

A transformação inversa é \[ X= A^{-1}(Y-b)\cdot \]

Então, \[ J=A^{-1} \] e \[ f_Y(y)=f_X\big(A^{-1}(y-b)\big)|A^{-1}|\cdot \]


Exemplo IV.12

Seja \(X=(X_1,X_2)\in\mathbb{R}^2\) com densidade \(f_X(x)=f_X(x_1,x_2)\), \(A=\begin{pmatrix} 1 & 1\\ 1 & -1 \end{pmatrix}\) e \(b=\begin{pmatrix} 0 \\ 0 \end{pmatrix}\). Então \[ Y = AX+b = \begin{pmatrix} X_1+X_2 \\ X_1-X_2 \end{pmatrix} \] e \[ |A|=2, \qquad A^{-1}=-\frac{1}{2}\begin{pmatrix} -1 & -1 \\ -1 & 1\end{pmatrix}\cdot \]

Então \[ f_Y(y) = |A^{-1}|f_X\big( A^{-1}y\big)=\frac{1}{2}f_X\big((y_1+y_2)/2,(y_1-y_2)/2\big)\cdot \]


Exemplo IV.13

Considere \(X\in\mathbb{R}\) com densidade \(f_X(x)\) e \(Y=\exp(X)\). Então, \(x=u(y)=\log(y)\) e, o Jacobiano é \[ J=\dfrac{\mbox{d}x}{\mbox{d}y}=\dfrac{1}{y}\cdot \]

A função de densidade de \(Y\) é \[ f_Y(y)=\dfrac{1}{y}f_X\big( \log(y)\big)\cdot \]


IV.4. A distribuição normal multivariada


A distribuição multinormal ou normal multivariada, com esperaça \(\mu\) e covariância \(\Sigma>0\), têm densidade \[ f(x)=\dfrac{1}{\sqrt{2\pi|\Sigma|}}\exp\Big( -\frac{1}{2}\big(x-\mu\big)^\top \Sigma^{-1}\big(x-\mu \big)\Big)\cdot \] Escrevemos \(X\sim N_p(\mu,\Sigma)\).

Como essa distribuição multinormal com média \(\mu\) e covariância \(\Sigma\) se relaciona com a normal multivariada padrão \(N_p(0,\mbox{I}_p)\)? Através de uma transformação linear usando os resultados da Seção IV.3, como mostrado no próximo teorema.


Teorema IV.5.

Seja \(X\sim N_p(\mu,\Sigma)\) e \(Y=\Sigma^{-1/2}(X-\mu)\), a trasformação de Mahalanobis. Então, \[ Y\sim N_p(0,\mbox{I}_p), \] ou seja, os elementos \(Y_j\in\mathbb{R}\) são independentes e variáveis \(N(0,1)\) uni-dimensionais.


Demonstração

Observe que \(\big(X-\mu\big)^\top \Sigma^{-1}\big(X-\mu \big)=Y^\top Y\). O Jacobiano é \(J=\Sigma^{-1/2}\) e, então \[ f_Y(y)=\dfrac{1}{\sqrt[p]{2\pi}}\exp\Big( -\frac{1}{2}y^\top y\Big), \]

a qual corresponde à função de densidade normal padrão \(N_p(0,\mbox{I}_p)\).


Observe que a transformação de Mahalanobis acima produz de fato uma variável aleatória \(Y=(Y_1,\cdots,Y_p)^\top\) composta por \(Y_j \sim N(0,1)\) independente, desde que \[ f_Y(y)= \dfrac{1}{(2\pi)^{p/2}}\exp\Big( -\frac{1}{2}y^\top y\Big)=\prod_{j=1}^p \frac{1}{\sqrt{2\pi}}\exp\Big(-\frac{1}{2}y_j^2 \Big)=\prod_{j=1}^p f_{Y_j}(y_j)\cdot \]

Portanto, cada \(f_{Y_j}(y)\) é normal padrão. Fica claro então que \(\mbox{E}(Y)=0\) e \(\mbox{Var}(Y)=\mbox{I}_p\).

Como podemos criar variáveis \(N_p(\mu,\Sigma)\) com base em variáveis \(N_p(0,\mbox{I}_p)\)? Usamos a transformação linear inversa \[ X = \Sigma^{1/2}Y+\mu\cdot \] Podemos verificar que \(\mbox{E}(X)\mu\) e que \(\mbox{Var}(X)=\Sigma\).

O teorema a seguir é útil porque apresenta a distribuição de uma variável após a transformação linear. A prova é deixada como um exercício.


Teorema IV.6.

Seja \(X\sim N_p(\mu,\Sigma)\), \(A_{p\times p}\) uma matriz não singular e \(c\in\mathbb{R}^p\). Então \(Y=AX+c\) é uma variável nnormal \(p\)-variada, isto é, \[ Y\sim N_p(A\mu+c,A\Sigma A^\top)\cdot \]



IV.4.1. Geometria da distribuição normal multivariada \(N_p(\mu,\Sigma)\)


Da definição da distribuição normal multivariada vemos que a função de densidade \(N_p(\mu,\Sigma)\) é constante nos elipsóides da forma \[ (x-\mu)^\top \Sigma^{-1}(x-\mu)=d^2\cdot \]


Exemplo IV.14

A figura seguinte mostra as elipses de contorno de uma distribuição normal bidimensional. Observe que essas elipses de contorno são as curvas de iso-distância da média dessa distribuição normal correspondente à métrica \(\Sigma^{-1}\).


library(MASS)
set.seed(4776)
amostra = mvrnorm(n = 100, mu = c(3,2), Sigma = rbind( c(1, -1.5), c(-1.5, 4)))
par(mfrow=c(1,2), mar=c(4,4,1,1), pch = 19)
plot(amostra, xlab=expression(X[1]), ylab=expression(X[2]))
grid()
library(MVN)
# ver http://leg.ufpr.br/~lucambio/MSM/MVNAnRPackageforAssessingMultivariateNormality.pdf
mvn(amostra, univariateTest = "AD", multivariatePlot = "contour") 

## $multivariateNormality
##            Test        HZ   p value MVN
## 1 Henze-Zirkler 0.3127851 0.9446417 YES
## 
## $univariateNormality
##               Test  Variable Statistic   p value Normality
## 1 Anderson-Darling  Column1      0.183    0.9086    YES   
## 2 Anderson-Darling  Column2      0.297    0.5845    YES   
## 
## $Descriptives
##     n     Mean  Std.Dev   Median       Min      Max      25th     75th
## 1 100 3.105583 0.970815 3.115781  1.114962 5.681509 2.4895543 3.803699
## 2 100 2.158789 2.054378 2.021483 -2.690478 6.299514 0.9214623 3.327005
##          Skew   Kurtosis
## 1  0.22058581 -0.2368995
## 2 -0.06634412 -0.3823595

O gráfico acima ostra a dispersão de uma amostra normal e elipses de contorno para \(\mu=\begin{pmatrix} 3 \\ 2 \end{pmatrix}\) e \(\Sigma=\begin{pmatrix} 1 & -1.5 \\ -1.5 & 4 \end{pmatrix}\).

De acordo com o Teorema II.7 os meio comprimentos dos eixos no elipsóide de contorno são \(\sqrt{d^2\lambda_i}\), onde \(\lambda_i\) são os autovalores de \(\Sigma\). Se \(\Sigma\) for uma matriz diagonal, o retângulo circunscreve a elipse de contorno tem lados com comprimento \(2d\sigma_i\) e, portanto, é naturalmente proporcional aos desvios padrão de \(X_i\), \(i=1,2\).


Teorema IV.7.

Se \(X\sim N_p(\mu,\Sigma)\), então a variável \(U=(X-\mu)\Sigma^{-1}(X-\mu)\) têm distribuição \(\chi_p^2\).


Teorema IV.8.

A função característica da distribuição normal multivariada \(N_p(\mu,\Sigma)\) é dada por \[ \varphi_X(t)=\exp\left( it^\top \mu -\frac{1}{2}t^\top \Sigma t\right)\cdot \]


Podemos verificar o Teorema IV.8 transformando a função característica de volta: \[ \begin{array}{rcl} f(x) & = & \dfrac{1}{(2\pi)^p} \displaystyle \int \exp\left(-it^\top x+it^\top \mu -\frac{1}{2}t^\top \Sigma t\right) \mbox{d}t \\ & = & \displaystyle \dfrac{1}{|2\pi\Sigma^{-1}|^{1/2}|2\pi\Sigma|^{1/2}}\int \exp\left(-\frac{1}{2}\left(t^\top \Sigma t + 2it^\top (x-\mu) -(x-\mu)^\top \Sigma^{-1} (x-\mu)\right)\right) \times \\ & & \qquad \qquad \qquad \qquad \qquad \qquad \exp\left(-\frac{1}{2}(x-\mu)^\top \Sigma^{-1} (x-\mu)\right) \mbox{d}t \\ & = & \displaystyle \dfrac{1}{|2\pi\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^\top \Sigma^{-1} (x-\mu)\right) \end{array} \]

Observe que, se \(Y\sim N_p(0,\mbox{I}_p)\), então \[ \varphi_Y(t) = \exp\left( -\frac{1}{2} t^\top \mbox{I}_p t\right) = \exp\left( -\frac{1}{2}\sum_{i=1}^p t_i^2\right) = \varphi_{Y_1}(t_1)\times \varphi_{Y_p}(t_p)\cdot \]


IV.4.2. Distribuição normal singular


Suponhamos que \(\mbox{posto}(\Sigma)=k<p\), sendo \(p\) a dimensão de \(X\). Definimos a função de densidade normal singular de \(X\) como \[ f(x)= \dfrac{(2\pi)^{-k/2}}{(\lambda_1\times\cdots\times \lambda_k )^{1/2}} \exp\left( -\frac{1}{2}(x-\mu)^\top \Sigma^{-} (x-\mu)\right), \] sendo \(\Sigma^-\) uma inversa generalizada ou \(G\)-inversa de \(\Sigma\), onde:

1- o vetor \(x\) pertence ao hiperplano \(H^\top (x-\mu)=0\), \(H\) satisfazendo que \[ H_{p\times (p-k)} \, : \, H^\top \Sigma = 0 \qquad \mbox{e} \qquad H^\top H =\mbox{I}_k\cdot \]
2- \(\Sigma^-\) é uma inversa generalizada ou \(G\)-inversa de \(\Sigma\) e \(\lambda_1,\cdots,\lambda_k\) são autovalores de \(\Sigma\) positivos.

Qual é a conexão com um multinormal com as \(k\)-dimensões? Se \[ Y\sim N_k(0,\Lambda_1) \qquad \mbox{e} \qquad \Lambda_1=\mbox{diag}(\lambda_1,\cdots,\lambda_k), \] então, existe uma matriz \(B_{p\times k}\), ortogonal, com \(B^\top B=\mbox{I}_k\) e maneira que \(X+BY+\mu\), sendo \(X\) uma variável aleatória com densidade normal singular.


IV.4.3. Copula gaussiano


Nos Exemplos IV.3 e IV.4, introduzimos modelos copula. Outra copula importante é a copula gaussiana ou normal, \[ C_\rho(u,v) = \int_{-\infty}^{\Phi_1^{-1}(u)} \int_{-\infty}^{\Phi_2^{-1}(v)} f_\rho(x_1,x_2)\mbox{d}x_1 \mbox{d}x_2, \] veja Embrechts, McNeil and Straumann (1999).

Acima \(f_\rho\) denota a função de densidade normal bivariada com correlação \(\rho\) para \(n= 2\). As funções \(\Phi_1\) e \(\Phi_2\) são as funções de distribuição normais padrão unidimensionais correspondentes das marginais.

No caso de correlação zero \(\rho=0\), o copula gaussiano é \[ C_0(u,v) = \int_{-\infty}^{\Phi_1^{-1}(u)} f_\rho(x_1)\mbox{d}x_1 \int_{-\infty}^{\Phi_2^{-1}(v)} f_\rho(x_2)\mbox{d}x_2 = u\times v = \prod (u,v)\cdot \]


IV.5. Distribuições amostrais e teoremas limites


Nas estatísticas multivariadas, observamos os valores de uma variável aleatória multivariada \(x\) e obtemos uma amostra \(\{x_i\}_{i=1}^n\), conforme descrito no Capítuulo III. Sob amostragem aleatória, essas observações são consideradas realizações de uma sequência i.i.d. das variáveis aleatórias \(X_1,\cdots,X_n\), onde cada \(X_i\) é uma variável aleatória de dimensão \(p\) que replica a variável aleatória populacional \(X\). Alguma confusão notacional é difícil de evitar: \(X_i\) não é o \(i\)-ésimo componente de \(X\), mas sim a replicação da variável aleatória \(p\)-variada que fornece a observação \(X_i\) da nossa amostra.

Para uma determinada amostra aleatória \(X_1,\cdots,X_n\), a idéia de inferência estatística é analisar as propriedades da variável populacional \(X\). Isso geralmente é feito através da análise de alguma característica \(\theta\) de sua distribuição, como a média, matriz de covariâncias, etc. A inferência estatística em uma configuração multivariada é considerada em mais detalhes nos Capítulos VI e VII.

A inferência geralmente pode ser realizada usando alguma função observável da amostra \(X_1,\cdots,X_n\), isto é, uma estatística. Exemplos de tais estatísticas foram apresentados no Capítulo III: a média amostral \(\overline{x}\), a matriz de covariâncias amostral \(S\). Para ter uma idéia da relação entre uma estatística e a característica da população correspondente é preciso derivar a distribuição amostral da estatística. O próximo exemplo fornece algumas dicas sobre a relação de \((\overline{x},S)\) para \((\mu,\Sigma)\).


Exemplo IV.15

Considere uma amotra i.i.d de \(n\) vetores aleatórios \(X_i\in\mathbb{R}^p\) onde \(\mbox{E}(X_i)=\mu\) e \(\mbox{Var}(X_i)=\Sigma\). A média amostral e a matriz de covariâncias amostrais foram definidas na Seção III.3. Podemos provar os resultados \[ \mbox{E}(\overline{x}) = \frac{1}{n} \sum_{i=1}^n \mbox{E}(X_i)=\mu, \] \[ \mbox{Var}(\overline{x})= \frac{1}{n^2}\sum_{i=1}^n \mbox{Var}(X_1) =\frac{1}{n}\Sigma = \mbox{E}(\overline{x}\overline{x}^\top) -\mu\mu^\top \] e \[ \begin{array}{rcl} \mbox{E}(S) & = & \displaystyle \frac{1}{n}\mbox{E}\left( \sum_{i=1}^n (X_1-\overline{x})(X_i-\overline{x})^\top\right) \\ & = & \displaystyle \frac{1}{n}\mbox{E}\left( \sum_{i=1}^n (X_1 X_i^\top - n \overline{x}\overline{x}^\top \right) \\ & = & \frac{1}{n}\left( n\big( \Sigma+\mu\mu^\top\big) -n\big( \frac{1}{n} \Sigma+\mu\mu^\top\big) \right) \, = \, \dfrac{n-1}{n}\Sigma\cdot \end{array} \]

Isso mostra em particular que \(S\) é um estimador tendencioso de \(\Sigma\). Por outro lado, \(S_u =\frac{n}{n-1}S\) é um estimador não tendencioso ou imparcial de \(\Sigma\).


A inferência estatística geralmente requer mais do que apenas a média e/ou a variância de uma estatística. Precisamos da distribuição amostral das estatísticas para derivar intervalos de confiança ou definir regiões de rejeição no teste de hipóteses para um determinado nível de significância. O teorema a seguir fornece a distribuição da média amostral para uma população multinormal.


Teorema IV.9

Seja \(X_1,\cdots,X_n\) uma amostra i.i.d. com \(X_i\sim N_p(\mu,\Sigma)\). Então \(\overline{x}\sim N_p(\mu,\frac{1}{n}\Sigma\)).


Demonstração

\(\overline{x} = \frac{1}{n} \sum_{i=1}^n X_i\) é uma combinação linear de variáveis normais independentes, por isso possui uma distribuição normal. O vetor de média e a matriz de covariâncias foram dadas no exemplo anterior.


Com as estatísticas multivariadas, as distribuições amostrais das estatísticas são frequentemente mais difíceis de derivar do que no teorema anterior. Além disso, eles podem ser tão complicadas que as aproximações precisam ser usadas. Essas aproximações são fornecidas por teoremas limites. Como são baseados em limites assintóticos, as aproximações são válidas apenas quando o tamanho da amostra é grande o suficiente. Apesar dessa restrição, eles fazem situações complicadas bastante simples. O Teorema do Limite Central a seguir mostra que, mesmo que a distribuição amostral não seja normal, quando o tamanho da amostra \(n\) é grande, a média da amostra \(\overline{x}\) tem uma distribuição normal aproximada.


Teorema IV.10 (Teorema do Limite Central)

Sejam \(X_1,\cdots,X_n\) vetores i.i.d. com distribuição \(X_i\sim (\mu,\Sigma)\). Então, a distribuição de \(\sqrt{n}(\overline{x}-\mu)\) é assintotimente \(N_p(0,\Sigma)\), ou seja, \[ \sqrt{n}(\overline{x}-\mu) \xrightarrow{\mathcal{L}} N_p(0,\Sigma), \] quando \(n\to\infty\).


O símbolo \(\xrightarrow{\mathcal{L}}\) denota convergência na distribuição, o que significa que a função de distribuição do vetor aleatório \(\sqrt{n}(\overline{x}-\mu)\) converge para a função de distribuição \(N_p(0,\Sigma)\).


Exemplo IV.16

Assuma que \(X_1,\cdots,X_n\) seja uma coleção i.i.d. com distribuição Bernoulli com \(p=1/2\), isto significa que \(P(X_1=1)=1/2\) e que \(P(X_i=0)=1/2\). Então, \(\mu=p=1/2\) e \(\Sigma=p(1-p) =1/4\). Então, \[ \sqrt{n}(\overline{x}-1/2) \xrightarrow{\mathcal{L}} N_1(0,1/4), \] quando \(n\to\infty\).


par(mfrow = c(1,2))
n = 5 # tamaho de amostra pequeno
amostra = rbinom(1000,n,1/2)
x = seq(-3.1,3.1,by=0.01)
plot(x,dnorm(x, mean = 0, sd = 1/2), col = "red", lwd = 2, type = "l", 
     xlab = "1000 amostras", ylim = c(0,0.9), ylab = "N(0,1/4) e densidade estimada")
rug(sqrt(n)*(amostra/n-1/2))
densidade.amostral = density(sqrt(n)*(amostra/n-1/2))
lines(densidade.amostral, col = "green", lwd = 2)
grid()
n = 35 # tamanho de amostra mediano
amostra = rbinom(1000,n,1/2)
x = seq(-3.1,3.1,by=0.01)
plot(x,dnorm(x, mean = 0, sd = 1/2), col = "red", lwd = 2, type = "l", 
     xlab = "1000 amostras", ylim = c(0,0.9), ylab = "N(0,1/4) e densidade estimada")
rug(sqrt(n)*(amostra/n-1/2))
densidade.amostral = density(sqrt(n)*(amostra/n-1/2))
lines(densidade.amostral, col = "green", lwd = 2)
grid()


Exemplo IV.17

Considere uma amostra aleatória \(X_1,\cdots,X_n\) Bernoulli bi-dimensional com \(p=1/2\) e constituída de duas distribuições Bernoulli independentes com \(p=/12\) cada uma. A distribuição conjunta é dada por \(P(X_1=(0,0)^\top)=1/4\), \(P(X_i=(0,1)^\top)=1/4\), \(P(X_i=(1,0)^\top)=1/4\) e \(P(X_i=(1,1)^\top)=1/4\). Então, \[ \sqrt{n}\left( \overline{x}-\begin{pmatrix} 1/2 \\ 1/2 \end{pmatrix} \right) \xrightarrow{\mathcal{L}} N_2\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 1/4 & 0 \\ 0 & 1/4 \end{pmatrix} \right), \] quando \(n\to\infty\).


A distribuição normal assintótica é frequentemente usada para construir intervalos de confiança para os parâmetros desconhecidos. Um intervalo de confiança no nível \(1-\alpha\)˛ \(\alpha\in (0,1)\) é um intervalo que cobre o verdadeiro parâmetro com probabilidade \(1-\alpha\): \[ P\Big( \theta\in [\widehat{\theta}_\ell,\widehat{\theta}_u]\Big) = 1-\alpha, \]

onde \(\theta\) denota o parâmetro desconhecido e \(\widehat{\theta}_\ell\) e \(\widehat{\theta}_u\) são os limites de confiança inferior e superior, respectivamente.


Exemplo IV.18

Considere uma amostra aleatória \(X_1,\cdots,X_n\) com \(X_i \sim (\mu,\sigma^2)\) e \(\sigma^2\) desconhecido. Desde que \(\sqrt{n}(\overline{x}-\mu) \xrightarrow{\mathcal{L}} N(0,\sigma^2)\) do Teorema do Limite Central (Teorema IV.10), segue que \[ \lim_{n\to\infty} P \left( -u_{1-\alpha/2} \leq \sqrt{n} \dfrac{\overline{x}-\mu}{\sigma} \leq u_{1-\alpha/2} \right) = 1-\alpha, \] onde \(u_{1-\alpha/2}\) denota o quantil \(1-\alpha/2\) da distribuição normal padrão.

Então, o intervalo \[ \left( \overline{x}-\dfrac{\sigma}{\sqrt{n}}u_{1-\alpha/2}, \, \overline{x}+\dfrac{\sigma}{\sqrt{n}}u_{1-\alpha/2}\right) \]

é um intervalo de confiança aproxiamda para \(\mu\) com nível de confiança \(1-\alpha\).


Mas o que podemos fazer se não conhecemos a variância \(\sigma^2\)? O corolário a seguir dá a resposta.


Corolário IV.1

Se \(\widehat{\Sigma}\) for um estimador consistente para \(\Sigma\), então o Teorema do Limite Central ainda é válido e \[ \sqrt{n}\widehat{\Sigma}^{-1/2}(\overline{x}-\mu) \xrightarrow{\mathcal{L}} N_p(0,\mbox{I}), \] quando \(n\to\infty\).


Exemplo IV.19

Seja \(X_1,\cdots,X_n\) uma amostra i.i.d. com \(X_1\sim (\mu,\sigma^2)\) e variância deeconhecida \(\sigma^2\). Do Corolário IV.1, usindo \(\widehat{\sigma}=\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2\) obtemos que \[ \sqrt{n}\left( \dfrac{\overline{x}-\mu}{\widehat{\sigma}}\right) \xrightarrow{\mathcal{L}} N(0,1), \] quando \(n\to\infty\).

Portanto, podemos construir um intervalo de confiança aproximado de nível de confinaça \(1-\alpha\) para usar \(\mu\) usando a estimativa da variância \(\widehat{\sigma}^2\): \[ C_{1-\alpha} = \left( \overline{x}-\widehat{\sigma}u_{1-\alpha/2}/\sqrt{n}, \, \overline{x}+\widehat{\sigma}u_{1-\alpha/2}/\sqrt{n}\right)\cdot \]

Pelo Teorema do Limite Central \[ \lim_{n\to\infty} P\big( \mu\in C_{1-\alpha}\big) = 1-\alpha\cdot \]


Pode-se perguntar o quão grande não deve ser \(n\) na prática para fornecer aproximações razoáveis. Não há resposta definitiva para esta pergunta: depende principalmente do problema em questão, a forma da distribuição do \(X_i\) e da dimensão de \(X_i\). Se o \(X_i\) for normalmente distribuído, a normalidade de \(\overline{x}\) é alcançada a partir de \(n= 1\). Na maioria das situações, no entanto, a aproximação é válida em problemas uni-dimensionais para \(n\) maior que, digamos, 50.


IV.5.1. Transformações de estatísticas


Muitas vezes, em problemas práticos, alguém está interessado em uma função de parâmetros para os quais se possui uma estatística assintoticamente normal. Suponha que, por exemplo, esteja interessado em uma função de custo, dependendo da média \(\mu\) do processo: \[ f(\mu)=\mu^\top A \mu, \] onde \(A> 0\) é dado. Para estimar \(\mu\), usamos a estatística assintoticamente normal \(\overline{x}\).

A questão é: como \(f(\overline{x})\) se comporta? De maneira mais geral, o que acontece com uma estatística \(t\) que é assintoticamente normal quando a transformamos por uma função \(f(t)\)? A resposta é dada pelo teorema a seguir.


Teorema IV.11.

Seja \(\sqrt{n}(t-\mu) \xrightarrow{\mathcal{L}} N_p(0,\Sigma)\) e sejam também \(f=(f_1,\cdots,f_p)^\top \, : \mathbb{R}^p \to \mathbb{R}^q\) funções reais diferenciáveis em \(\mu\in\mathbb{R}^q\). Então \(f(t)\) é assintoticamente normal com esperança \(f(t)\) e matriz de covariâncias \(D^\top\Sigma D\), isto é, \[ \sqrt{n}\big(f(t)-f(\mu)\big) \xrightarrow{\mathcal{L}} N_q(0,D^\top \Sigma D) \]

quando \(n\to\infty\) sendo que \[ D = \left. \begin{pmatrix}\dfrac{\partial f_j}{\partial t_i} \end{pmatrix}(t)\right|_{t=\mu}, \]

a matriz \(p\times q\) de derivadas parciais;


Exemplo IV.20

Estamos interessados em ver como \(f(\overline{x})=\overline{x}^\top A \overline{x}\) se comporta assintoticamente em relação à função de custo quadrático de \(\mu\), \(f(\mu)=\mu^\top A \mu\), sendo que \(A>0\). \[ D = \left. \begin{pmatrix}\dfrac{\partial f(\overline{x})}{\partial \overline{x}} \end{pmatrix}\right|_{\overline{x}=\mu} = 2 A \mu \cdot \]

Pelo Teorema IV.11, temos que \[ \sqrt{n}(\overline{x}^\top A\overline{x}-\mu^\top A \mu) \xrightarrow{\mathcal{L}} N_1(0,4\mu^\top A\Sigma A\mu)\cdot \]


Exemplo IV.21.

Suponha que \[ X_i \sim (\mu,\Sigma), \qquad \mu=\begin{pmatrix} 0 \\ 0 \end{pmatrix}, \qquad \Sigma = \begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}\cdot \]

Do Teorema do Limite Central, quando \(n\to\infty\) temos que \[ \sqrt{n}\big( \overline{x}-\mu\big) \xrightarrow{\mathcal{L}} N(0,\Sigma)\cdot \]

Suponha que gostaríamos de calcular a distribuição de \[ \begin{pmatrix} \overline{x}_1^1 -\overline{x}_2 \\ \overline{x}_1+3\overline{x}_2 \end{pmatrix}\cdot \]

De acordo com o Teorema IV.11 devemos considerar \(f(f_1,f_2)^\top\) sendo que \[ f_1(x_1,x_2)=x_1^2-x_2, \qquad f_2(x_1,x_2)=x_1+3x_2\cdot \]

Observando que \(f(\mu)=\begin{pmatrix} 0 \\ 0 \end{pmatrix}\) e \(D=(d_{ij})\), sendo que \[ d_{ij} = \left. \begin{pmatrix} \dfrac{\partial f_j}{\partial x_i}\end{pmatrix}\right|_{x=\mu} = \left. \begin{pmatrix} 2x_1 & 1 \\ -1 & 3 \end{pmatrix} \right|_{x=0}\cdot \] Então \[ D=\begin{pmatrix} 0 & 1 \\ -1 & 3 \end{pmatrix}\cdot \]

A matriz de covariâncias é \[ \underbrace{\begin{pmatrix} 0 & -1 \\ 1 & 3 \end{pmatrix}}_{D^\top} \underbrace{\begin{pmatrix} 1 & 1/2 \\ 1/2 & 1 \end{pmatrix}}_{\Sigma} \underbrace{\begin{pmatrix} 0 & 1 \\ -1 & 3 \end{pmatrix}}_{D} = \underbrace{\begin{pmatrix} 0 & -1 \\ 1 & 3 \end{pmatrix}}_{D^\top} \underbrace{\begin{pmatrix} -1/2 & 5/2 \\ -1 & 7/2 \end{pmatrix}}_{\Sigma D} = \underbrace{\begin{pmatrix} 1 & -7/2 \\ -7/2 & 13 \end{pmatrix}}_{D^\top \Sigma D}, \]

da qual obtemos \[ \sqrt{n} \begin{pmatrix} \overline{x}_1^2 - \overline{x}_2 \\ \overline{x}_1+3\overline{x}_2 \end{pmatrix} \xrightarrow{\mathcal{L}} N\left( \begin{pmatrix} 0 \\ 0\end{pmatrix}, \begin{pmatrix} 1 & -7/2 \\ -7/2 & 13 \end{pmatrix}\right)\cdot \]


Exemplo IV.22.

Vamos continuar o exemplo anterior adicionando mais um componente à função \(f\). Desde que \(q=3>p=2\), devemos esperar uma distribuição ormal singular.

Considere \(f=(f_1,f_2,f_3)^\top\) com \[ f_1(x_1,x_2)=x_1^2-x_2, \qquad f_2(x_1,x_2)=x_1+3x_2, \qquad f_3(x_1,x_2)=x_2^3\cdot \]

Disto, temos \[ D=\begin{pmatrix} 0 & 1 & 0 \\ -1 & 3 & 0 \end{pmatrix}, \qquad \mbox{e, então} \qquad D^\top\Sigma D=\begin{pmatrix} 1 & -7/2 & 0 \\ -7/2 & 13 & 0 \\ 0 & 0 & 0\end{pmatrix}\cdot \] O limite é de fato uma distribuição normal singular.



IV.6. Distribuições com caudas pesadas


As distribuições de cauda pesada foram introduzidas pela primeira vez pelo economista suíço nascido na Itália Pareto e extensivamente estudado por Paul Lévy. Embora no início essas distribuições tenham sido estudadas principalmente teoricamente, hoje em dia elas encontraram muitas aplicações em áreas tão diversas quanto finanças, medicina, sismologia e engenharia estrutural.

Mais concretamente, elas foram usados ara modelar retornos de ativos nos mercados financeiros, fluxo em hidrologia, precipitação e danos causados por furacões na meteorologia, previsão de terremotos em sismologia, poluição, força material, teletráfico e muitos outros.

Uma distribuição é chamada de cauda pesada se tiver maior densidade de probabilidade em sua área de cauda em comparação com uma distribuição normal com a mesma média \(\mu\) e variância \(\sigma^2\). A figura abaixo demonstra as diferenças das curvas de densidade de uma distribuição gaussiana padrão e uma distribuição de Cauchy com o parâmetro de localização \(mu=0\) e parâmetro de escala \(\sigma=1\). O gráfico mostra que a função de densidade de probabilidade da distribuição de Cauchy é muito maior que a gaussiana na parte da cauda, enquanto na área ao redor do centro, a densidade de probabilidade da distribuição de Cauchy é muito menor.


par(mfrow=c(1,1), mar=c(3,3,1,1))
x = seq(-4,4,by=0.01)
plot(x,dnorm(x, mean = 0, sd = 1), lwd = 2, type = "l", col = "red", ylim = c(0,0.4))
lines(x, dcauchy(x, location = 0, scale = 1), col = "blue", lwd = 2)
grid()

Em termos de curtose, uma distribuição de cauda pesada tem curtose maior que 3, que é chamada leptokurtic, em contraste com a distribuição mesokúrtica, curtose = 3 e distribuição platicurtic, curtose menor do que 3. Como as distribuições univariadas de caudas pesadas servem como básico para seus colegas multivariados e suas propriedades de densidade provaram-se úteis, mesmo em casos multivariados, começaremos a introduzir algumas distribuições univariadas de cauda pesada. Em seguida, seguiremos para analisar seus colegas multivariados e seu comportamento da cauda.


IV.6.1. Distribuição hiperbólica generalizada


A distribuição hiperbólica generalizada foi introduzida por Barndorff-Nielsen e, inicialmente, aplicada para modelar distribuições de tamanho de grão de areias sopradas pelo vento. Hoje, um de seus usos mais importantes está na modelagem de preços das ações e na medição de riscos de mercado. O nome da distribuição é derivado do fato de que o logaritmo de sua densidade forma uma hipérbole, enquanto o logaritmo da densidade da distribuição normal é uma parábola.


library(fBasics)
par(mfrow=c(1,2), mar=c(3,3,1,1))
x = seq(-4, 4, by = 0.01)
plot(x, dgh(x, alpha = 1, beta = 0, delta = 1), type = "l", col = "red", lwd = 2)
lines(x, dnorm(x, mean = 0, sd = 1), col = "blue", lwd = 2)
grid()
plot(x, dgh(x, alpha = 1, beta = 0, delta = 1, log = TRUE), type = "l", col = "red", lwd = 2)
lines(x, dnorm(x, mean = 0, sd = 1, log = TRUE), col = "blue", lwd = 2)
grid()

Na figura acima a esquerda mostramos as funções de densidade normal em azul e hiperbólica generalizada, em vermelho. A direita mostramos o logaritmo das funções de densidade.

A densidade de uma distribuição hiperbólica generalizada unidimensional (GH) para \(x\in\mathbb{R}\) é \[ f_{GH}(x; \lambda,\alpha, \beta,\delta,\mu) = \dfrac{\big(\sqrt{\alpha^2-\beta^2}/\delta \big)^\lambda}{\sqrt{2\pi} K_\lambda\big(\delta \sqrt{\alpha^2-\beta^2}\big) }\dfrac{K_{\lambda-1/2}\big(\alpha\sqrt{\delta^2+(x-\mu)^2}\big)}{\big(\sqrt{\delta^2+(x-\mu)^2}/\alpha \big)^{1/2-\lambda}}\exp\big(\beta(x-\mu)\big), \] onde \(K_\lambda\) é a função de Bessel modificada de terceira ordem com índice \(\lambda\) \[ K_\lambda(x)=\dfrac{1}{2}\int_0^\infty y^{\lambda-1}\exp\big(-\frac{x}{2}(y+1/y)\big)\mbox{d}y\cdot \]

O domínio de variação dos parâmetros é \(\mu\in\mathbb{R}\), \(\delta\geq 0\) e \(|\beta|<\alpha\) se \(\lambda>0\); \(\delta> 0\) e \(|\beta|<\alpha\) se \(\lambda=0\) e \(\delta> 0\) e \(|\beta|\leq \alpha\) se \(\lambda<0\).

A esperança e variância assumem as seguintes expressões: \[ \mbox{E}(X)=\mu+\dfrac{\delta\beta}{\sqrt{\alpha^2-\beta^2}}\dfrac{K_{\lambda+1}\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}{K_\lambda(\delta\sqrt{\alpha^2 -\beta^2}\big)} \] e \[ \mbox{Var}(X) = \delta^2\left( \dfrac{K_{\lambda+1}\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}{\delta\sqrt{\alpha^2-\beta^2}K_\lambda\big(\delta\sqrt{\alpha^2 -\beta^2}\big)} + \dfrac{\beta^2}{\alpha^2-\beta^2}\left(\dfrac{K_{\lambda+2}\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}{K_\lambda\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}-\dfrac{K_{\lambda+1}^2\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}{K_\lambda^2(\delta\sqrt{\alpha^2 -\beta^2}\big)} \right)\right)\cdot \]

Onde \(\mu\) e \(\delta\) desempenham papéis importantes na localização e escala da densidade, respectivamente. Com valores específicos de \(\lambda\), obtemos diferentes subclasses de GH, como distribuição hiperbólica (HYP) ou gaussiana-inversa normal (NIG).

para \(\lambda=1\) obtemos a distribuição hiperbólica (HYP) \[ f_{HYP}(x;\alpha,\beta,\delta,\mu)=\dfrac{\sqrt{\alpha^2-\beta^2}}{2\alpha\delta K_1\big(\delta\sqrt{\alpha^2 -\beta^2}\big)}\exp\left(-\alpha\sqrt{\delta^2+(x-\mu)^2}+\beta(x-\mu) \right), \] onde \(x,\mu\in\mathbb{R}\), \(\alpha\geq 0\) e \(|\beta|<\alpha\).


IV.6.2. Distribuição \(t\)-Student


A distribuição \(t\) foi analisada pela primeira vez por Gosset (1908), que a publicou sob o pseudônimo de Student (estudante), mediante solicitação de seu empregador. Seja \(X\) uma variável aleatória normalmente distribuída com média \(\mu\) variância \(\sigma^2\) e \(Y\) a variável aleatória de modo que \(Y^2/\sigma^2\) possua distribuição qui-quadrado com \(n\) graus de liberdade. Suponha que \(X\) e \(Y\) sejam independentes, então \[ t = \dfrac{X/\sqrt{n}}{Y} \]

é distribuído como \(t\)-Student com \(n\) graus de liberdade. A distribuição \(t\) tem a seguinte função de densidade \[ f_t(x;n) = \dfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}\left( 1+\dfrac{x^2}{n}\right)^{-\frac{n+1}{2}}, \]

onde \(n\) é o número de graus de liberdade, \(-\infty<x<\infty\) e \(\Gamma\) é a função gama \[ \Gamma(\alpha)=\int_0^\infty x^{\alpha-1} \exp(-x)\mbox{d}x\cdot \]

A média, variância, assimetria (skewness) e curtose (kurtosis) da distribuição \(t\)-Student, para \(n>4\) são \[ \mu=0, \qquad \sigma^2=n/(n-2), \qquad \mbox{assimetria} = 0, \qquad \mbox{curtose} = 3+ 6/(n-4)\cdot \] A distribuição \(t\)-Student é simétrica em torno de 0, o que é consistente com o fato de que sua média é 0 e a assimetria também é 0.

A distribuição \(t\)-Student se aproxima da distribuição normal à medida que \(n\) aumenta, pois \[ \lim_{n\to\infty} f_t(x;n)=\dfrac{1}{\sqrt{2\pi}}\exp\big( -x^2/2\big)\cdot \]

Na prática, a distribuição \(t\) é amplamente utilizada, mas sua flexibilidade de modelagem é restrita devido ao índice de cauda com valor inteiro. Na área da cauda da distribuição \(t\), \(x\) é proporcional a \(|x|^{-(n+1)}\).


IV.6.3. Distribuição Laplace


A distribuição univariada de Laplace com média zero foi introduzida por Laplace (1774). A distribuição de Laplace pode ser definida como a distribuição de diferenças entre duas variáveis independentes com distribuições exponenciais idênticas. Portanto, também é chamada de distribuição exponencial dupla.

A distribuição de Laplace com o parâmetro \(\mu\) de média e escala \(\theta\) tem função de densidade \[ f_\mbox{Laplace}(x;\mu,\theta)=\dfrac{1}{2\theta}\exp\left( -\dfrac{|x-\mu|}{\theta} \right) \]

e função de distribuição acumulada \[ F_\mbox{Laplace}(x;\mu,\theta)=\dfrac{1}{2}\left(1+\mbox{sgn}(x-\mu)\Big( 1-\exp\big( -|x-\mu|/\theta\big)\Big) \right), \]

onde \(\mbox{sgn}\) denota a função sinal.


library(VGAM)
par(mfrow=c(1,2), mar=c(4,4,2,2))
x <- seq(-5,5, by=0.02)
plot(x,dlaplace(x, location = 0, scale = 1), xlab="x", ylab="Densidade Laplace", 
     type = "l", col = "black", lwd = 2)
lines(x, dlaplace(x, location = 0, scale = 2), col = "blue", lwd  = 2)
lines(x, dlaplace(x, location = 0, scale = 1.5), col = "green", lwd  = 2)
grid()
plot(x,plaplace(x, location = 0, scale = 1), xlab="x", ylab="Distribuição Laplace", 
     type = "l", col = "black", lwd = 2)
lines(x, plaplace(x, location = 0, scale = 2), col = "blue", lwd  = 2)
lines(x, plaplace(x, location = 0, scale = 1.5), col = "green", lwd  = 2)
grid()


Se \(X\sim \mbox{Laplace}(\mu,\theta)\), a média, variância, assimetria e curtose da distribuição de Laplace são: \[ \mbox{E}(X)=\mu, \]

\[ \mbox{Var}(X)=2\theta^2, \]

\[ \mbox{assimetria}(X)=0 \] e

\[ \mbox{curtose}(X)=6\cdot \]

No caso particular \(\mu=0\) e \(\theta=1\), adistribuição Laplace se reduz a \[ f(x)=\frac{1}{2}e^{-|x|}\cdot \]


IV.6.4. Distribuição Cauchy


A distribuição de Cauchy geral e a função de distribuição geral cauchy sâo: \[ f_\mbox{Cauchy}(x;m,s)=\dfrac{1}{s\pi}\dfrac{1}{1+\Big( \dfrac{x-m}{s}\Big)^2} \]

e \[ F_\mbox{Cauchy}(x;m,s)=\dfrac{1}{2}\dfrac{1}{\pi}\arctan\left(\dfrac{x-m}{s}\right) \]

onde \(m\) e \(s\) são parâmetros de localização e escala, respectivamente. O caso onde \(m= 0\) e \(s=1\) é chamado de distribuição de Cauchy padrão com função de densidade e de distribuição como segue, \[ f_\mbox{Cauchy}(x)=\dfrac{1}{\pi}\dfrac{1}{1+x^2} \]

e \[ F_\mbox{Cauchy}(x)=\dfrac{1}{2}\dfrac{1}{\pi}\arctan\left(x\right)\cdot \]

A média, variância, assimetria e curtose da distribuição de Cauchy são todas indefinidas, pois sua função geradora de momentos diverge. Mas tem moda e mediana, ambas iguais ao parâmetro de localização \(m\).


par(mfrow=c(1,2), mar=c(4,4,2,2))
x <- seq(-5,5, by=0.02)
plot(x,dcauchy(x, location = 0, scale = 1), xlab="x", ylab="Densidade Cauchy", 
     type = "l", col = "black", lwd = 2)
lines(x, dcauchy(x, location = 0, scale = 2), col = "blue", lwd  = 2)
lines(x, dcauchy(x, location = 0, scale = 1.5), col = "green", lwd  = 2)
grid()
plot(x,pcauchy(x, location = 0, scale = 1), xlab="x", ylab="Distribuição Cauchy", 
     type = "l", col = "black", lwd = 2)
lines(x, pcauchy(x, location = 0, scale = 2), col = "blue", lwd  = 2)
lines(x, pcauchy(x, location = 0, scale = 1.5), col = "green", lwd  = 2)
grid()



IV.6.5. Modelos de mistruras


A modelagem da mistura diz respeito à modelagem de uma distribuição estatística por uma mistura ou soma ponderada de diferentes distribuições. Para muitas opções de funções de densidade de componentes, o modelo de mistura pode aproximar qualquer densidade contínua à precisão arbitrária, desde que o número de funções de densidade do componente seja suficientemente grande e os parâmetros do modelo sejam escolhidos corretamente. A função de densidade de uma distribuição de mistura consiste em \(L\) distribuições e pode ser escrito como: \[ f(x)=\sum_{\ell=1}^L w_\ell p_\ell(x) \] sob as restrições: \[ 0\leq w_\ell \leq 1, \]

\[ \sum_{\ell=1}^L w_\ell=1 \]

e

\[ \int p_\ell(x)\mbox{d}x=1 \]

onde \(p_\ell(x)\) é a função de densidade da \(\ell\)-ésima densidade do componente e \(w_\ell\) é um peso.


library(flexmix) 
#https://ro.uow.edu.au/cgi/viewcontent.cgi?referer=&httpsredir=1&article=3410&context=commpapers
par(mfrow=c(1,2), mar=c(4,4,2,2))
n <- 500
set.seed(4290)
coin <- sample(c(0, 1), size = n, replace = TRUE, prob = c(0.5, 0.5))
head(coin)
## [1] 1 1 0 0 0 1
table(coin)
## coin
##   0   1 
## 243 257
gauss_1 <- rnorm(n = table(coin)[1], mean = 5, sd = 2)
gauss_2 <- rnorm(n = table(coin)[2])
mixture_simulation <- ifelse(coin, gauss_1, gauss_2)
plot(density(mixture_simulation), xlab="x", ylab="Mistura gaussina", 
     type = "l", col = "black", lwd = 2, xlim = c(-5,15), main = "", ylim = c(0,0.425))
rug(mixture_simulation)
x <- seq(-5,15, by = 0.02)
lines(x, dnorm(x, mean = 5, sd = 2), col = "blue", lwd  = 2)
lines(x, dnorm(x, mean = 0, sd = 1), col = "blue", lwd  = 2)
grid()
gamma_1 <- rgamma(n = table(coin)[1], shape = 15, rate = 2)
gamma_2 <- rgamma(n = table(coin)[2], shape = 3, rate = 1)
mixture_simulation <- ifelse(coin, gamma_1, gamma_2)
plot(density(mixture_simulation), xlab="x", ylab="Mistura gama", 
     type = "l", col = "black", lwd = 2, xlim = c(0,15), main = "", ylim = c(0,0.4))
x <- seq(0,15, by = 0.02)
lines(x, dgamma(x, shape = 15, rate = 2), col = "blue", lwd  = 2)
lines(x, dgamma(x, shape = 3, rate = 1), col = "blue", lwd  = 2)
rug(mixture_simulation)
grid()


A média, variância, assimetria (skewness) e curtose (kurtosis) de uma mistura são: \[ \mu = \sum_{\ell=1}^L w_\ell \mu_\ell, \] \[ \sigma^2= \sum_{\ell=1}^L w_\ell \big(\sigma_\ell^2+(\mu_\ell-\mu)^2 \big), \]

\[ \mbox{assimetria}=\sum_{\ell=1}^L w_\ell \left( \Big( \dfrac{\sigma_\ell}{\sigma}\Big)^3 \mbox{SK}_\ell +\dfrac{2\sigma_\ell^2 (\mu_\ell-\mu)}{\sigma^3}+\Big( \dfrac{\mu_\ell-\mu}{\sigma}\Big)^3\right) \]

e \[ \mbox{curtose} = \sum_{\ell=1}^L w_\ell \left( \Big( \dfrac{\sigma_\ell}{\sigma}\Big)^4 \mbox{K}_\ell +\dfrac{6\sigma_\ell^2 (\mu_\ell-\mu)^2}{\sigma^4}+\dfrac{4\sigma_\ell^3 (\mu_\ell-\mu)}{\sigma^4}\mbox{SK}_\ell+ \Big( \dfrac{\mu_\ell-\mu}{\sigma}\Big)^4\right) \]

onde \(mu_\ell\), \(\sigma_\ell^2\), \(\mbox{SK}_\ell\) e \(\mbox{K}_\ell\) são respectivamente média, variância, assimetria e curtose da \(\ell\)-ésima distribuição na mistura.

Os modelos de mistura são onipresentes em praticamente todas as facetas da análise estatística, aprendizado de máquina e mineração de dados. Para conjuntos de dados que compreendem variáveis contínuas a abordagem mais comum envolve distribuições de mistura com componentes gaussianos.

A função de densidade para uma mistura de gaussianas é da forma \[ f_{GM}(x)=\sum_{\ell=1}^L \dfrac{w_\ell}{\sigma_\ell\sqrt{2\pi}}\exp\Big( -\dfrac{x^2}{2\sigma_\ell^2}\Big), \] com variãncia, asimetria e curtose das por \[ \sigma^2=\sum_{\ell=1}^L w_\ell \sigma_\ell^2, \]

\[ \mbox{asimetria}=0 \] e \[ \mbox{curtose}=\sum_{\ell=1}^L 3w_\ell\Big(\dfrac{\sigma_\ell}{\sigma}\Big)^4\cdot \]


Exemplo IV.24

Considere uma mistura gaussiana que é 80% \(N(0,1)) e 20% \(N(0,9)\). As funções de densidade são \[ f_{N(0,1)}(x)=\dfrac{1}{\sqrt{2\pi}}\exp \Big(-\dfrac{x^2}{2} \Big) \] e \[ f_{N(0,9)}(x)=\dfrac{1}{3\sqrt{2\pi}}\exp \Big(-\dfrac{x^2}{18} \Big)\cdot \]

Assim, a função de densidade desse mistura de gaussianas é \[ f_{GM}(x)=\dfrac{1}{5\sqrt{2\pi}}\left( 4\exp\Big(-\dfrac{x^2}{2}\Big)+\frac{1}{3}\exp\Big( -\frac{x^2}{18}\Big)\right)\cdot \] Observe que \(\mu=0\), \(\sigma^2=0.8\times 1+0.2\times 9=2.6\), \(\mbox{assimetria}=0\) e \[ \mbox{curtose} = 3\times 0.8\times \Big( \dfrac{1}{\sqrt{2.6}}\Big)^4+ 3\times 0.2\times \Big( \dfrac{\sqrt{9}}{\sqrt{2.6}}\Big)^4=7.54\cdot \] A curtose desta mistura gaussiana é superior a 3.


Um modelo de mistura multivariada compreende distribuições multivariadas, ou seja, a função de densidade de uma distribuição gaussiana multivariada pode ser escrita como \[ f(x)=\sum_{\ell=1}^L \dfrac{w_\ell}{|2\pi\Sigma_\ell|^\frac{1}{2}}\exp\Big(-\frac{1}{2}(x-\mu_\ell)^\top\Sigma^{-1}(x-\mu_\ell)\Big)\cdot \]


IV.6.6. Distribuição hiperbólica generalizada multivariada


A função de densidade hiperbólica generalizada multivariada (\(\mbox{DH}_d\) têm a seguinte forma: \[ f_{\mbox{GH}_d}(x; \lambda,\alpha,\beta,\delta,\Delta,\mu) = a_d \dfrac{ K_{\lambda-\frac{d}{2}}\Big(\alpha\sqrt{\delta^2+(x-\mu)^\top \Delta^{-1}(x-\mu)}\Big)}{\left(\frac{1}{\alpha}\sqrt{\delta^2+(x-\mu)^\top \Delta^{-1}(x-\mu)}\right)^{\frac{d}{2}-\lambda}}\exp\big( \beta^\top(x-\mu)\big), \]

onde \[ a_d=a_d(\lambda,\alpha,\beta,\delta,\Delta)=\dfrac{\Big( \sqrt{\alpha^2-\beta^\top\Delta\beta}/\delta \Big)^\lambda }{(2\pi)^{\frac{d}{2}}K_\lambda\big( \delta\sqrt{\alpha^2-\beta^\top \Delta \beta}\big)} \]

e função carcaterística \[ \varphi(t) = \left(\dfrac{\alpha^2=\beta^\top \Delta \beta}{\alpha^2-\beta^\top\Delta \beta+\frac{1}{2}t^\top \Delta t - i\beta^\top \Delta t} \right)^{\frac{\lambda}{2}}\dfrac{K_{\lambda}\Big(\delta\sqrt{\alpha^2-\beta^\top \Delta\beta+\frac{1}{2}t^\top\Delta t -i\beta^\top\Delta t}\Big)}{K_{\lambda}\Big( \delta\sqrt{\alpha^2-\beta^\top \Delta \beta}\Big)}\cdot \]

Esses parâmetros têm o seguinte domínio de variação: \[ \lambda\in\mathbb{R}, \; \beta, \; \mu\in\mathbb{R}^d, \; \delta>0, \; \alpha>\beta^\top\Delta \beta, \]

\[ \Delta\in\mathbb{R}^{d\times d} \] uma matriz definida ositiva e \[ |\Delta|=1\cdot \]

Para \(\lambda=(d+1)/2\) obtemos a distribuição hiperbólica multivariada (HYP); para \(\lambda=-1/2\) obtemos a distribuição gaussiana inversa normal multivariada (NIG).

Blæsild and Jensen (1981) introduziram uma segunda parametrização \((\xi,\Pi,\Sigma)\), onde \[ \xi = \delta\sqrt{\alpha^2-\beta^\top\Delta \beta}, \] \[ \Pi = \beta\sqrt{\dfrac{\Delta}{\alpha^2-\beta^\top\Delta\beta}} \]

e \[ \Sigma=\delta^2\Delta\cdot \]

A esperança e variância de \(X\sim GH_d\), obtemos \[ \mbox{E}(X)=\mu+\delta R_\lambda(\xi)\Pi\Delta^\frac{1}{2} \]

e \[ \mbox{Var}(X)=\delta^2\Big( \xi^{-1}R_\lambda(\xi)\Delta+S_\lambda(\xi)(\Pi \Delta^\frac{1}{2})^\top (\Pi \Delta^\frac{1}{2})\Big), \]

onde \[ R_\lambda(x)=\dfrac{K_{\lambda+1}(x)}{K_\lambda(x)} \]

e \[ S_\lambda(x)=\dfrac{K_{\lambda+2}(x)K_\lambda(x)-K_{\lambda+1}^2(x)}{K_\lambda^2(x)}\cdot \]


Teorema IV.12

Suponha que \(X\) seja uma variável \(d\)-dimensional distribuída de acordo com a distribuição hiperbólica generalizada \(\mbox{GH}_d\). Seja \((X_1,X_2)\) uma partição de \(X\), sejam \(r\) e \(k\) as dimensões de \(X_1\) e \(X_2\), respectivamente e sejam \((\beta_1,\beta_2)\) e \(\mu_1,\mu_2)\) partições semelhantes de \(\beta\) e \(\mu\), seja \[ \Delta=\begin{pmatrix} \Delta_{11} & \Delta_{12} \\ \Delta_{21} & \Delta_{22} \end{pmatrix} \]

uma partição de \(\Delta\) de maneira que \(\Delta_{11}\) seja uma matriz \(r\times r\). Então, temos o seguinte:
1- A distribuição de \(X_1\) é hiperbólica generalizada de dimensão \(r\), ou seja, \(X\sim GH_d(\lambda^*,\alpha^*,\beta^*,\delta^*,\mu^*,\Delta^*)\), onde \[ \lambda^*=\lambda, \; \alpha^*=|\Delta_{11}|^{-\frac{1}{2r}}\Big( \alpha^2-\beta_2\big(\Delta_{22}-\Delta_{21}\Delta_{11}^{-1}\Delta_{12}\big)\beta_2^\top\Big)^\frac{1}{2}, \]

\[ \beta^*=\beta_1+\beta_2\Delta_{21}\Delta_{11}^{-1}, \; \delta^*=\delta|\Delta|^\frac{1}{2\rho}, \; \mu^*=\mu_1 \] e \[ \Delta^*=|\Delta|^{-\frac{1}{r}}\Delta_{11}\cdot \]
2- A distribuição condicional de \(X_2 \, | \, X_1=x_1\) é hiperbólica generalizada de dimensão \(k\), ou seja, \(X_2 | X_1=x_1\sim GH_k(\lambda^*,\alpha^*,\beta^*,\delta^*,\mu^*,\Delta^*)\), onde \[ \lambda^*=\lambda-r/2, \; \alpha^*=\alpha |\Delta_{11}|^{-\frac{1}{2k}}, \; \beta^*=\beta_2, \]

\[ \delta^*=|\Delta|^\frac{1}{2k}\big(\delta^2+(x_1-\mu_1)\Delta_{11}^{-1}(x_1-\mu_1)^\top \big)^\frac{1}{2}, \; \mu^*=\mu_2+(x_1-\mu_1)\Delta_{11}^{-1}\Delta_{12} \] e \[ \Delta^*=|\Delta|^{-\frac{1}{k}}\big( \Delta_{22}-\Delta_{21}\Delta_{11}^{-1}\Delta_{12}\big)\cdot \]
3- Seja \(Y=XA+B\) uma transformação afim regular de \(X\) e seja \(||A||\) o valor absoluto do determinante de \(A\). A distribuição de \(Y\) é a distribuição hiperbólica generalizada \(d\)-dimensional, ou seja, \(Y\sim GH_d(\lambda^*,\alpha^*,\beta^*,\delta^*,\mu^*,\Delta^*)\)), onde \[ \lambda^*=\lambda, \; \alpha^*=\alpha ||A||^{-\frac{1}{d}}, \; \beta^*=\beta A^{-\top}, \]

\[ \delta^*=||A||^\frac{1}{d}, \; \mu^*=\mu A+B \] e \[ \Delta^*=||A||^{-\frac{2}{d}}A^\top \Delta A\cdot \]



IV.6.7. Distribuição \(t\) multivariada


Se \(X\) e \(Y\) são independentes e distribuídos como \(N_p(\mu,\Sigma)\) e \(\chi_n^2\) respectivamente e \(X\sqrt{n/Y}=t-\mu\), então a função de densidade de \(t\) é dada por \[ f_t(t;n,\mu,\Sigma)=\dfrac{\Gamma\big((n+p)/2 \big)}{\Gamma(n/2)n^{p/2}\pi^{p/2}|\Sigma|^{1/2}\big(1+\frac{1}{n}(t-\mu)^\top \Sigma^{-1}(t-\mu) \big)^{(n+p)/2} }\cdot \]

A distribuição de \(t\) é a distribuição \(t\) não central com \(n\) graus de liberdade e parâmetro de não centralidade \(\mu\), Giri (1996).


IV.6.8. Distribuição Laplace multivariada


Sejam \(g\) e \(G\) a função de densidade e de distribuição respectivas de uma distribuição gaussiana \(d\)-dimensional \(N_d(0,\Sigma)\). As funções de densidade e de distribuição de uma distribuição de Laplace multivariada podem ser escritas como \[ f_{\mbox{M Laplace}_d}(x;m,\Sigma)=\int_0^\infty g(z^{-1/2}x- z^{-1/2}m) z^{-d/2}e^{-z}\mbox{d}z \] e \[ F_{\mbox{M Laplace}_d}(x;m,\Sigma)=\int_0^\infty G(z^{-1/2}x- z^{-1/2}m) e^{-z}\mbox{d}z\cdot \]

A esperança e variância sãO \[ \mbox{E}(X)=m \] e \[ \mbox{Var}(X)=\Sigma+m m^\top\cdot \]


IV.7. Copulas


A função de distribuição acumulada de um vetor bidimensional \((X_1,X_2)\) é dada por \[ F(x_1,x_2)=P(X_1\leq x_1, X_2\leq x_2)\cdot \]

Para o caso em que \(X_1\) e \(X_2\) são independentes, sua função de distribuição acumulada conjunta \(F(x_1,x_2)\) pode ser escrita como um produto de seus marginais unidimensionais: \[ F(x_1,x_2)=F_{X_1}(x_1)F_{X_2}(x_2) = P(X_1\leq x_1)P(X_2\leq x_2)\cdot \]

Mas como podemos modelar a dependência de \(X_1\) e \(X_2\)? A maioria das pessoas sugeriria correlação linear.

A correlação é uma medida apropriada de dependência somente quando as variáveis aleatórias têm uma distribuição elíptica ou esférica, que inclui a distribuição multivariada normal. Embora os termos correlação e dependência sejam frequentemente usados de forma intercambiável, a correlação é na verdade uma medida de dependência bastante imperfeita, e há muitas circunstâncias em que a correlação não deve ser usada.

As copulas representam um conceito elegante de conectar marginais com funções de distribuição acumulada articular. As copulas são funções que se juntam ou casam funções de distribuição multivariada em suas funções unidimensionais de distribuição marginal.

Vamos considerar um vetor \(d\)-dimensional \(X=(X_1,\cdots,X_d)^\top\). Usando copulas, as funções de distribuição marginal \(F_{X_i}\), \(i=1,\cdots,d\) podem ser modeladas separadamente de sua estrutura de dependência e depois acopladas para formar a distribuição multivariada \(F_X\). As funções copula têm uma longa história em teoria e probabilidade estatística. Sua aplicação em finanças é muito recente. As copulas são importantes nos cálculos de valor em risco e constituem uma ferramenta essencial em finanças quantitativas (Härdle et al., 2009).

Primeiro, vamos nos concentrar no caso bidimensional, depois estenderemos esse conceito ao caso \(d\)-dimensional, para uma variável aleatória em \(\mathbb{R}^d\) com \(d\geq 1\). Para poder definir uma função copula, primeiro precisamos alguns conceitos.

Sejam \(U_1\) e \(U_2\) dois conjuntos em \(\overline{\mathbb{R}}=\mathbb{R}\bigcup \{+\infty\}\bigcup \{-\infty\}\) e considere a função \(F \, : \, U_1\times U_2\to \overline{\mathbb{R}}\).


Definição IV.2

O \(F\)-volume do retângulo \(B=[x_1,x_2]\times [y_1,y_2]\subset U_1\times U_2\) é definido como \[ V_F(B) = F(x_2,y_2)-F(x_1,y_2)-F(x_2,y_1)+F(x_1,y_1)\cdot \]


Definição IV.3

\(F\) é dita ser uma função 2-crescente se para cada \(B=[x_1,x_2]\times [y_1,y_2]\subset U_1\times U_2\), \[ V_F(B) \geq 0\cdot \]


Observe que ser uma função 2-crescente não implica nem está implícito estar aumentando em cada argumento. Os seguintes lemas (Nelsen, 1999) serão muito úteis posteriormente para estabelecer a continuidade das copulas.


Lema IV.1

Sejam \(U_1\) e \(U_2\) conjuntos não vazios em \(\overline{\mathbb{R}}\) e seja \(F \, : \, U_1\times U_2\to \overline{\mathbb{R}}\) uma função 2-crescente. Sejam \(x_1\), \(x_2\) em \(U_1\) com \(x_q\leq x_2\) e \(y_1\), \(y_2\) em \(U_2\) com \(y_1\leq y_2\). Então a função \(t \, : \, F(t,y_2) - F(t,y_1)\) é não decrescente em \(U_1\) e a função \(t \, : \, F(x_2,t) - F(x_1,t)\) é não decrescente em \(U_2\).


Definição IV.4

Se \(U_1\) e \(U_2\) tiverem como menor elemento \(\min(U_1)\) e \(\min(U_2)\), respectivamente, dizemos que uma função \(F\, : \, U_1\times U_2 \to \mathbb{R}\) está aterrada se: \[ \mbox{para todo } x\in U_1 \, : \, F\big(x,\min(U_2)\big)=0 \] e \[ \mbox{para todo } y\in U_2 \, : \, F\big(\min(U_1),y\big)=0\cdot \]

A seguir, nos referiremos a esta como a definição função de distribuição acumulada.


Definição IV.5

A função de distribuição acumulada \(F \, : \, \overline{\mathbb{R}}^2\to [0,1]\) satisfaz:
(i) é aterrada;
(ii) 2-crescente;
(iii) \(F(\infty,\infty)=1\).


Lema IV.2

Sejam \(U_1\) e \(U_2\) dois conjuntos não vazios em \(\overline{\mathbb{R}}\) e seja \(F \, : \, U_1\times U_2 \to \overline{\mathbb{R}}\) uma função 2-crescente aterrada. Então \(F\) não é decrescente em cada argumento.


Definição IV.6

Se \(U_1\) e \(U_2\) tiverem como maior elemento \(\max(U_1)\) e \(\max(U_2)\), respectivamente, dizemos que uma função \(F\, : \, U_1\times U_2 \to \mathbb{R}\) tem marginais e que as marginais de \(F\) são dadas por: \[ F(x) = F\big(x,\max(U_2)\big) \quad \mbox{para todo } x\in U_1 \] e \[ F(y) = F\big(\max(U_1),y\big) \quad \mbox{para todo } y\in U_2 \cdot \]


Lema IV.3

Sejam \(U_1\) e \(U_2\) dois conjuntos não vazios em \(\overline{\mathbb{R}}\) e seja \(F \, : \, U_1\times U_2 \to \overline{\mathbb{R}}\) uma função 2-crescente aterrada com marginais. Seja \((x_1,y_1), (x_2,y_2)\in S_1\times S_2\). Então \[ |F(x_2,y_2)-F(x_1,y_1)| \leq |F(x_2)-F(x_1)| + |F(y_2)-F(y_1)|\cdot \]


Definição IV.7 (Copula bidimensional)

Uma copula bidimensional é uma função \(C\) definida no quadrado unidade \(I^2=I\times I\), com \(I=[0,1]\) de tal modo que
(i) para todo \(u\in I\) se satifaz que: \[ C(u,0)=C(0,u)=0, \] isto é, \(C\) é aterrada.
(ii) para todos \(u_1,u_2,v_1,v_2\in I\) com \(u_1\leq u_2\) e \(v_1\leq v_2\) se satisfza que; \[ C(u_2,v_2)-C(u_2,v_1)-C(u_1,v_2)+C(u_1,v_1)\geq 0, \] ou seja, \(C\) é 2-crescente.
(iii) para todo \(u\in I\) se satisfaz que \(C(u,1)=u\) e \(C(1,v)=v\).


Informalmente, uma copula é uma função de distribuição conjunta definida em \([0,1]^2\) que tem marginais uniformes. Isso significa que, se \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\) forem funções de distribuição univariadas, então \(C\big(F_{X_1}(x_1),F_{X_2}(x_2)\big)\) é uma função de distribuição bidimensional com marginais \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\).


Exemplo IV.25

As funções \(\max(u+v-1,0)\), \(uv\) e \(\min(u,v)\) são funções copula. Eles são chamados respectivamente o copula máximo, copula produto e copula mínimo.


Exemplo IV.26

Considere a função \[ C_\rho^{Gauss}(u,v)=\Phi_\rho\big(\Phi^{-1}(u),\Phi^{-1}(v) \big) = \int_{-\infty}^{\Phi^{-1}(u)} \int_{-\infty}^{\Phi^{-1}(v)} f_\rho(x_1,x_2)\mbox{d}x_2\mbox{d}x_1, \] onde \(\Phi_\rho\) representa a função de distribuição normal padrão com coeficiente de correlação \(\rho\), \(\Phi\) refere-se à função de distribuição acumulada normal padrão e \[ f_\rho(x_1,x_2)=\dfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\left( -\dfrac{x_1^2-2\rho x_1 x_2+x_2^2}{2(1-\rho^2)}\right), \] denota a função de densidade nornal padrão bivariada com coeficiente de correlação \(\rho\).


Pode-se demonstrar que \(C_\rho^{Gauss}\) é uma função copula, chamada cópula gaussiana ou normal, uma vez que é 2-crescente e \[ \Phi_\rho\big( \Phi^{-1}(u),\Phi^{-1}(0) \big)=\Phi_\rho\big( \Phi^{-1}(0),\Phi^{-1}(v) \big)=0 \]

e \[ \Phi_\rho\big( \Phi^{-1}(u),\Phi^{-1}(1) \big)=u \qquad \mbox{e} \qquad \Phi_\rho\big( \Phi^{-1}(1),\Phi^{-1}(v) \big)=v\cdot \]

Uma maneira simples e útil de representar o gráfico de uma copula é o diagrama de contorno, que são gráficos de seus conjuntos de nível, os conjuntos em \(I^2\) dados por \(C(u,v)=a\), \(a\) uma constante.


library(copula)
par(mfrow=c(1,2))
r <- contour(gumbelCopula(3), dCopula, n=200, nlevels=100)
contour(r, levels = seq(1, max(r$z), by=2), lwd=1.5)
contour(r, levels = (1:13)/2, add=TRUE, col=adjustcolor(1,3/4), lty=2)
contour(r, levels = (1:13)/4, add=TRUE, col=adjustcolor(2,1/2), lty=3, lwd=3/4)


Nas figuras acima apresentamos os diagramas do contorno da copula de Gumbel-Hougard (Exemplo IV.4) para diferentes valores do parâmetro cópula.

Para \(\theta=1\), a copula Gumbel-Hougaard se reduz à copula produto, ou seja, \[ C_1(u,v)=\prod(u,v)=uv\cdot \]

Para \(\theta\to\infty\), encontramos que a copula Gumbel-Hougaard assume a forma \[ C_\theta(u,v)\to \min(u,v)=M(u,v), \] onde \(M\) é também uma copula satisfazendo \(C(u,v)\leq M(u,v)\) para copulas arbitrárias \(C\). A copula \(M\) é chamada de limite superior de Fréchet-Hoeffding.

A função bidimensional \(W(u,v)=\max(u+v-1,0)\) define uma copula com \(W(u,v)\leq C(u,v)\) para qualquer outra copula \(C\). \(W\) é chamado de limite inferior de Fréchet-Hoeffding.

Pode-se demonstrar a chamada desigualdade de Fréchet-Hoeffding, que já usamos no Exemplo I.3 e que afirma que cada função copula é delimitada pelo mínimo e máximo: \[ W(u,v)=\max(u+v-1,0)\leq C(u,v)\leq \min(u,v)=M(u,v)\cdot \] A relação completa entre a função copula e a função de distribuição acumulada conjunta depende do Teorema de Sklar.


Exemplo IV.27

Vamos verificar que a copula gaussiana satisfaz o Teorema de Sklar em ambas as direções. De um lado, seja \[ F(x_1,x_2) = \int_{-\infty}^{x_1}\int_{-\infty}^{x_2} \dfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\left( -\dfrac{u_1^2-2\rho u_1u_2 +u_2^2}{2(1-\rho^2)}\right)\mbox{d}x_1 \mbox{d}x_2 \] uma função de distribuição normal bidimensional com funções de distribuições normal padrão \(F_{X_1}(x_1)\) e \(F_{X_1}(x_1)\). Como \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\) são contínuas, uma única copula \(C\) existe tal que, para todas as \(x_1,x_2\in \overline{\mathbb{R}}^2\), uma função de distribuição bidimensional pode ser escrita como uma copula em \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\): \[ F(x_1,x_2)=C\big( \Phi_{X_1}(x_1), \Phi_{X_2}(x_2)\big)\cdot \]

A copula gaussiana satisfaz a igualdade acima, portanto é a única copula mencionada no Teorema de Sklar. Isso prova que a copula gaussiana, juntamente com as marginais gaussianas, fornece a distribuição normal bidimensional.

Por outro lado, se \(C\) é uma copula e \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\) são funções de distribuição normal padrão, então \[ C\big( F_{X_1}(x_1), F_{X_2}(x_2)\big)=\int_{-\infty}^{\Phi^{-1}\big(F_{X_1}(x_1)\big)}\int_{-\infty}^{\Phi^{-1}\big(F_{X_2}(x_2)\big)} \dfrac{\exp\left(-\dfrac{x_1^2-2\rho x_1x_2+x_2^2}{2(1-\rho^2)} \right)}{2\pi\sqrt{1-\rho^2}}\mbox{d}x_2\mbox{d}x_1 \]

é evidentemente uma função de distribuição conjunta (bidimensional). Suas margens são \[ C\big( F_{X_1}(x_1), F_{X_2}(+\infty)\big)= \Phi_\rho\left(\Phi^{-1}\big(F_{X_1}(x_1)\big),+\infty \right)= F_{X_1}(x_1) \] e \[ C\big( F_{X_1}(+\infty), F_{X_2}(x_2)\big)= \Phi_\rho\left(+\infty,\Phi^{-1}\big(F_{X_2}(x_2)\big) \right)=F_{X_2}(x_2)\cdot \]


O teorema a seguir mostra uma característica atraente da representação copula da dependência, isto é, que a estrutura de dependência descrita por uma copula é invariante sob transformações crescentes e contínuas das distribuições marginais.


Teorema IV.13

Se \((X_1,X_2)\) tiver copula \(C\) e sejam \(g_1\) e \(g_2\) duas funções continuas crescentes, então \(\big( g_1(X_1),g_2(X_2)\big)\) também têm copula \(C\).


Exemplo IV.28

Independência implica que o produto de duas funções de distribuição \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\) iguala-se à função de distribuição conjunta \(F\), ou seja, \[ F(x_1,x_2) = F_{X_1}(x_1)\times F_{X_2}(x_2)\cdot \]

Assim, obtemos a função copula independência ou copula produto \[ C(u,v)=\prod(u,v)=u\times v\cdot \]


Embora seja facilmente entendido como a copula produto descreve uma relação de independência, o inverso também é verdadeiro. Ou seja, a função de distribuição conjunta de duas variáveis aleatórias independentes pode ser interpretada como a copula produto. Este conceito é formalizado no seguinte teorema.


Teorema IV.14

Sejam \(X_1\) e \(X_2\) variáveis aleatórias com funções de distribuição contínuas \(F_{X_1}(x_1)\) e \(F_{X_2}(x_2)\) e função de distribuição conjunta \(F\). Então \(X_1\) e \(X_2\) são independentes se, e somente se, \(C_{X_1,X_2}=\prod\).


Exemplo IV.29

Vamos considerar a copula gaussiana para o caso \(\rho=0\), ou seja, correlação desaparecimento. Nesse caso, a copula gaussiana se torna \[ C_0^\mbox{Gauss}(u,v) = \int_{-\infty}^{\Phi^{-1}(u)} \varphi(x_1)\mbox{d}x_1\int_{-\infty}^{\Phi^{-1}(v)} \varphi(x_2)\mbox{d}x_2 = u\times v =\prod(u,v)\cdot \]


O teorema a seguir, que segue diretamente do Lema IV.3, estabelece a continuidade das copulas.


Teorema IV.15

Seja \(C\) uma copula. Então, para quaisquer \(u_1,v_1,u_2,v_2\in I\) se satisfaz que \[ |C(u_2,v_2)-C(u_1,v_1)| \leq |u_2-u_1| + |v_2-v_1|\cdot \]


Da relação acima segue-se que toda copula \(C\) é uniformemente contínua em seu domínio. Outra propriedade importante das copulas diz respeito às derivadas parciais de uma copula em relação a suas variáveis.


Teorema IV.16

Seja \(C(u,v)\) uma copula. Para qualquer \(u\in I\), as derivadas parciais \(\partial C(u,v)/\partial v\) existem para quase todo \(u \in I\). Para tais \(u\) e \(v\) temos: \[ \dfrac{\partial C(u,v)}{\partial v}\in I\cdot \]

A afirmação análoga é verdadeira para a derivada parcial \(\partial C(u,v)/\partial u\), \[ \dfrac{\partial C(u,v)}{\partial u}\in I\cdot \]

Além disso, as funções \[ C_v(u) = \partial C(u,v)/\partial v \] e \[ C_u(v) = \partial C(u,v)/\partial u \] são definidas e são não crescentes em quase todos os lugares em \(I\).


Até agora, consideramos copulas apenas em um ambiente bidimensional. Vamos agora estender esse conceito ao caso \(d\)-dimensional, para uma variável aleatória em \(\mathbb{R}^d\) com \(d\geq 1\).

Sejam \(U_1,U_2,\cdots,U_d\) conjuntos não vazios em \(\overline{\mathbb{R}}\) e considere a função \[ F \, : \, U_1\times U_2 \times \cdots \times U_d \to \overline{\mathbb{R}}\cdot \]

Para \(a=(a_1,a_2,\cdots,a_d)\) e \(b=(b_1,b_2,\cdots,b_d)\) com \(a\leq b\), ou seja, \(d_k\leq b_k\) paa todo \(k\); seja \[ B=[a,b]=[a_1,b_1]\times [a_2,b_2]\times \cdots \times [a_d,b_d] \] o conjunto \(d\)-caixa com vértices \(c=(c_1,c_2,\cdots,c_d)\). Obviamente, cada \(c_k\) ou é igual a \(a_k\) ou \(b_k\).


Definição IV.8

Seja \(F\) o volume da \(d\)-caixa \(B=[a,b]=[a_1,b_1]\times [a_2,b_2]\times \cdots \times [a_d,b_d] \subset U_1\times U_2 \times \cdots \times U_d\) definido como \[ V_F(B)= \sum_{k=1}^d \mbox{sinal}(c_k) F(c_k), \]

onde \(\mbox{sinal}(c_k)=1\) casa \(c_k=a_k\) para \(k\) par e \(\mbox{sinal}(c_k)-1\) se \(c_K=b_k\) para \(k\) ímpar.


Exemplo IV.30

Para o caso \(d=3\), o volume \(F\) da \(3\)-caixa \(B=[a,b]=[x_1,x_2]\times [y_1,y_2]\times [z_1,z_2]\) é \[ V_F(B) = F(x_2,y_2,z_2)-F(x_2,y_2,z_1)-F(x_2,y_1,z_2) - F(x_1,y_2,z_2) \\ \qquad \qquad \qquad +F(x_2,y_1,z_1)+F(x_1,y_2,z_1)+F(x_1,y_1,z_2)-F(x_1,y_1,z_1)\cdot \]



Definição IV.9

\(F\) é considerado uma função \(d\)-crescente se para todas as \(d\)-caixas \(B\), com vértices em \(U_1\times U_2 \times \cdots \times U_d\), verifica-se que \[ V_F(B)\geq 0\cdot \]


Definição IV.10

Se \(U_1\times U_2 \times \cdots \times U_d\) tiverem como menores elementos \(\min(U_1),\min(U_2),\cdots,\min(U_d)\) respectivamente, dizemos que \(F\, : \, U_1\times U_2 \times \cdots \times U_d\to\overline{\mathbb{R}}\) é aterrada se \[ F(x)=0 \qquad \mbox{para todo} \qquad x\in U_1\times U_2 \times \cdots \times U_d, \] de tal modo que \(x_k=\min(U_k)\) por pelo menos um \(k\).


Os lemas, que apresentamos para o caso bidimensional, têm versões multivariadas análogas, ver Nelsen (1999).


Definição IV.11

Uma função \(C\) é chamada de copula \(d\)-dimensional ou \(d\)-copula, defininda no \(d\)-cubo \(I^d = I\times I \times \cdots \times I\) se:
(i) para todo \(u\in I^d\) se cumpre que \(C(u)=0\) se pelo menos uma coordenada de \(u\) é igual a 0, ou seja, se \(C\) é aterrada,
(ii) para todo \(a,b\in I^d\), com \(a\leq b\) se satisfaz que: \[ V_C([a,b])\geq =0, \] ou seja, \(C\) é 2-crescente;
(iii) para todo \(u\in I^d\) se satisfaz que: \[ C(u)=u_k, \] se todas as coordenadas de \(u\) forem 1 excepto \(u_k\).


Analogamente ao cenário bidimensional, vamos apresentar o Teorema do Sklar para o caso \(d\)-dimensional.


Teorema IV.17 (Teorema de Sklar para o caso \(d\) dimensões)

Seja \(F\) uma função de distribuição de dimensão \(d\) com funções de distribuição margianis \(F_{X_1},F_{X_2},\cdots,F_{X_d}\). Então, existe uma \(d\)-copula \(C\) de maneira que para todos os \(x_1,x_2,\cdots,x_d \in \overline{\mathbb{R}}\): \[ F(x_1,x_2,\cdots,x_d)= C\big( F_{X_1}(x_1),F_{X_2}(x_2),\cdots,F_{X_d}(x_d)\big)\cdot \]

Além disso, se \(F_{X_1},F_{X_2},\cdots,F_{X_d}\) forem contínuas, então \(C\) é único. Caso contrário, \(C\) é determinado exclusivamente no produto cartesiano \(\mbox{Img}(F_{X_1})\times \mbox{Img}(F_{X_2})\times \cdots \mbox{Img}(F_{X_d})\).

Por outro lado, se \(C\) é uma copula e \(F_{X_1},F_{X_2},\cdots,F_{X_d}\) são funções de distribuição, então \(F\) definida acima é uma função de distribuição \(d\)-dimensional com marginais \(F_{X_1},F_{X_2},\cdots,F_{X_d}\).


Para ilustrar as \(d\)-copulas, apresentamos os seguintes exemplos.

Exemplo IV.31

Vamos denotar \(\Phi\) a função de distribuição normal padrão univariada e \(\Phi_{\Sigma,d}\) a função de distribuição normal padrão \(d\)-dimensional com matriz de correlação \(\Sigma\). Então a função \[ C_\rho^\mbox{Gauss} (u,\Sigma) =\Phi_{\Sigma,d} \big( \Phi^{-1}(u_1), \cdots, \Phi^{-1}(u_d)\big) = \int_{-\infty}^{\Phi^{-1}(u_1)}\int_{-\infty}^{\Phi^{-1}(u_1)}f_\Sigma(x_1,\cdots,x_d)\mbox{d}x_1 \cdots\mbox{d}x_d \] é a copula gaussiana \(d\)-dimensional ou copula normal com a matriz de correlação \(\Sigma\). A função \[ f_\rho(x_1,\cdots,x_d)=\dfrac{1}{\sqrt{|\Sigma|}}\exp\left(-\frac{1}{2}\big(\Phi^{-1}(u_1),\cdots,\Phi^{-1}(u_d) \big)^\top \big(\Sigma^{-1}-\mbox{I}_d \big)\big(\Phi^{-1}(u_1),\cdots,\Phi^{-1}(u_d) \big) \right) \]

é uma função de densidade copula. O parâmetro de dependência da copula \(\rho\) é a coleÇão de todos os coeficientes de correlação desconhecidos em \(\Sigma\). Se \(\rho\neq 0\)˛ a copula normal correspondente permite gerar dependência simétrica conjunta. No entanto, não é possível modelar uma dependência da cauda, ou seja, eventos extremos da conjunta têm uma probabilidade zero.


Exemplo IV.32

Consideremos a seguinte função \[ C_\theta^\mbox{GH}(u_1,\cdots,u_d) = \exp\left( -\sqrt[\theta]{\sum_{j=1}^d \big( -\log(u_j)\big)^\theta} \right)\cdot \]

Reconhece-se que essa função é como a função copula \(d\)-dimensional Gumbel-Hougaard. Ao contrário da copula gaussiana, esta copula pode gerar uma dependência da cauda superior.


Exemplo IV.33

Como no cenário bidimensional, vamos considerar a copula \(d\)-dimensional de Gumbel-Hougaard para o caso \(\theta=1\). Nesse caso, a copula de Gumbel-Hougaard se reduz à copula de produto \(d\)-dimensional, ou seja, \[ C_1^\mbox{GH}(u_1,\cdots,u_d) = \prod_{j=1}^d u_j\cdot \]


A extensão da copula bidimensional \(M\), que se obtém da copula \(d\)-dimensional de Gumbel-Hougaard quando \(\theta\to\infty\) é denotada por \(M^d(u)\) e definida como \[ \lim_{\theta\to\infty} C^\mbox{GH}_\theta(u_1,\cdots,u_d) = \min(u_1,\cdots,u_d)=M^d(u)\cdot \] A função \(d\)-dimensional \[ W^d(u)=\max(u_1+u_2+\cdots+u_d-d+1,0) \]

define uma copula com \(W(u)\leq C(u)\) para qualquer outra função de copula \(d\)-dimensional \(C(u)\). \(W^d(u)\) é o limite inferior Fréchet-Hoeffding no caso \(d\)-dimensional.

As funções \(M^d\) e \(\prod^d\) são \(d\)-copula para todo \(d\geq 2\), enquanto a função \(W^d\) falha em ser uma \(d\)-copula para qualquer \(d> 2\) (Nelsen, 1999). No entanto, a versão \(d\)-dimensional da desigualdade de Fréchet-Hoeffding pode ser escrita da seguinte maneira: \[ W^d(u)\leq C(u)\leq M^d(u)\cdot \]


IV.8. Bootstrap


Lembre -se de que precisamos de grandes tamanhos de amostra para aproximar suficientemente os valores críticos computáveis pelo Teorema do Limite Central. Aqui, grande significa \(n> 50\) para dados uni-dimensionais. Como podemos construir intervalos de confiança no caso de tamanhos de amostra menores? Uma maneira é usar um método chamado Bootstrap.

O algoritmo de bootstrap usa os dados duas vezes:
1. Estime o parâmetro de interesse,
2. Simule a partir de uma distribuição estimada para aproximar a distribuição assintótica das estatísticas de interesse.

Em detalhes, o bootstrap funciona da seguinte maneira. Considere as observações \(x_1,\cdots,x_n\) da amostra \(X_1,\cdots,X_n\) e estimar a função de distribuição empírica (EDF) \(F_n\). No caso de dados unidimensionais \[ F_n(x)=\frac{1}{n}\sum_{i=1}^n \mbox{I}(X_i\leq x)\cdot \] Esta é uma função de etapa que é constante entre os pontos de dados vizinhos.


set.seed(7489)
x1 = rnorm(100)
x2 = seq(-3,3,by=0.01)
x3 = rnorm(1000)
par(mfrow=c(1,2), mar=c(4,4,1,1))
plot(ecdf(x1), xlim=c(-3,3))
lines(x2,pnorm(x2), col = "red", lwd=2)
grid()
plot(ecdf(x3), xlim=c(-3,3))
lines(x2,pnorm(x2), col = "red", lwd=2)
grid()


Agora obtenha uma nova amostra com reposição desta distribuição empírica. Isto é, amostrar com reposição \(n^*\) observações \(X_1^*,\cdots,X_{n^*}^*\) da amostra original. Isso é chamado de amostra de bootstrap. Geralmente, tomamos \(n^*=n\).

Como amostramos com reposição, uma única observação da amostra original pode aparecer várias vezes na amostra de bootstrap. Por exemplo, se a amostra original consistir nas três observações \(x_1,x_2,x_3\), então uma amostra de bootstrap pode parecer \(X_1^*=x_3\), \(X_2^*=x_2\), \(X_3^*=x_3\). Computacionalmente, encontramos a amostra bootstrap usando um gerador de número aleatório uniforme para desenhar dos índices \(1,2,\cdots,n\) das amostras originais.

As observações de bootstrap são extraídas aleatoriamente da distribuição empírica, isto é, a probabilidade de cada observação original ser selecionada na amostra de bootstrap é \(1/n\) para cada empate. Podemos calcular que \[ \mbox{E}_{F_n}(X_i^*)=\frac{1}{n}\sum_{i=1}^n x_i = \overline{x}\cdot \]

O mesmo vale para a variância, ou seja, \[ \mbox{Var}_{F_n}(X_i^*)=\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \widehat{\sigma}^2\cdot \]


Corolário IV.2

Se \(X_1^*,\cdots,X_n^*\) for uma amostra bootstrap de \(X_1,\cdots,X_n\), então, a distribuição de \[ \sqrt{n}\left( \dfrac{\overline{x}^*-\overline{x}}{\widehat{\sigma}^*}\right) \]

é \(N(0,1)\) asintóticamente, onde \(\overline{x}^*=\frac{1}{n}\sum_{i=1}^n X_i^*\) e \((\widehat{\sigma}^*)^2=\frac{1}{n}\sum_{i=1}^n (X_i^*-\overline{x}^*)^2\).


Como encontramos um intervalo de confiança para \(\mu\) usando o método de bootstrap? Lembre-se de que o quantil \(U_{1-\alpha/2}\) pode ser ruim para pequenos tamanhos de amostra, porque a verdadeira distribuição de \(\sqrt{n}(\overline{x}-\mu)/\widehat{\sigma}\) pode estar longe da distribuição limite \(N(0,1)\).

A idéia do bootstrap nos permite simular essa distribuição computando \[ \sqrt{n}\left( \dfrac{\overline{x}^*-\overline{x}}{\widehat{\sigma}^*}\right) \]

para muitas amostras de bootstrap. Dessa maneira, podemos estimar um quantil empírico \(u^*_{1-\alpha/2}\). O intervalo de confiança aprimorado de bootstrap é então \[ C_{1-\alpha}^* = \left( \overline{x}-\dfrac{\widehat{\sigma}}{\sqrt{n}}u^*_{1-\alpha/2} \, , \, \overline{x}+\dfrac{\widehat{\sigma}}{\sqrt{n}}u^*_{1-\alpha/2} \right)\cdot \]

Pelo Coralário IV.2 temos \[ \lim_{n\to\infty} P\big(\mu\in C_{1-\alpha}^*\big) = 1-\alpha, \]

mas com uma velocidade de convergência aprimorada, ver Hall (1992).


IV.9. Exercícios


  1. Suponha que o vetor aleatório \(Y\) tenha a seguinte distribuição normal \(N_p(0,\mbox{I})\). Transforme-o para criar \(X\sim N(\mu,\Sigma)\), com \(\mu=(3,2)^\top\) e \(\Sigma=\begin{pmatrix} 1 & -1.5 \\ -1.5 & 4 \end{pmatrix}\)

  2. Suponha que \(X\) tenha média zero e matriz de covariâncias \(\Sigma=\begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}\). Seja \(Y=X_1+X_2\). Escreva \(Y\) como transformação linear, ou seja, encontre a matriz de transformação \(A\). Encontre \(\mbox{Var}(Y)\).

  3. Encontre os momentos condicionais \(\mbox{E}(X_2|x_1)\) e \(\mbox{E}(X_1|x_2)\) para a função de densidade no Exemplo IV.5.

  4. Mostre que \[ f_Y(y)=\left\{ \begin{array}{ccl} \frac{1}{2}y_1-\frac{1}{4}y_2, & \mbox{quando} & 0\leq y_1\leq 2, \; |y_2|\leq 1-|1-y_1| \\ 0, & \mbox{caso contrário} & \end{array}\right. \] é uma função de densidade.

  5. Uma montadora européia testou um novo modelo e relata a consumo de gasolina \(X_1\) e de óleo \(X_2\). O consumo previsto de gasolina é de 8 litros por 100 km (\(\mu_1\)) e o consumo esperado de óleo é de 1 litro por 10.000 km \((\mu_2)\). O consumo medido de gasolina é de 8.1 litros por 100 km \((\overline{x}_1)\) e o consumo medido de óleo é de 1.1 litros por 10.000 km \((\overline{x}_2)\). A distribuição assintótica de \[ \sqrt{n}\left(\begin{pmatrix} \overline{x}_1 \\ \overline{x}_2 \end{pmatrix}-\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix} \right) \sim N_2 \left(\begin{pmatrix} 0 \\ 0 \end{pmatrix}-\begin{pmatrix} 0.1 & 0.05 \\ 0.05 & 0.1 \end{pmatrix} \right)\cdot \]

    Para o mercado americano as unidades básicas de medição são milhas (1 milha 1.6 km) e galões (1 galão 3.8 l). Os consumos de gasolina \(Y_1\) e óleo \(Y_2\) são geralmente informados em milhas por galão. Você pode expressar \(\overline{y}_1\) e \(\overline{y}_2\) em termos de \(\overline{x}_1\) e \(\overline{x}_2\)? Recalcule a distribuição assintótica para o mercado americano.

  6. Considere a função de densidade conjunta \(f(x_1,x_2)=e^{-(x_1+x_2)}\), \(x_1,x_2>0\) e \(U_1=X_1+X_2\) e \(U_2=X_1-X_2\). Encontre \(f(u_1,u_2)\).

  7. Considere as seguintes funções de densidade conjunta: \[ f(x_1,x_2) = 4x_1x_2 e^{-x_1^2}, \qquad x_1,x_2>0, \]

    \[ f(x_1,x_2) = 1, \qquad 0<x_1,x_2<1 \quad \mbox{e} \quad x_1+x_2<1, \]

    \[ f(x_1,x_2)=\frac{1}{2}e^{-x_1}, \qquad x_1>|x_2|\cdot \]

    Para cada uma desta funções de densidade conjunta encontre: \(\mbox{E}(X)\), \(\mbox{Var}(X)\), \(\mbox{E}(X_1,X_2)\), \(\mbox{E}(X_2|X_1\), \(\mbox{Var}(X_1|X_2)\) e \(\mbox{Var}(X_2|X_1)\).

  8. Seja \[ f(x_1,x_2)=\frac{3}{4}x_1^{-1/2}, \qquad 0<x_1<x_2<1\cdot \]

    Encontre \(P(X_1<0.25)\), \(P(X_2<0.25)\) e \(P(X_2<0.25 \, | \, X_1<0.25)\).

  9. Seja \[ f(x_1,x_2)=\frac{1}{2\pi}, \qquad 0<x_1<2\pi, \, 0<x_2<1 \cdot \]

    Sejam \(U_1=\sin\big(X_1\sqrt{-2\log(X_2)}\big)\) e \(U_2=\cos\big( X_1\sqrt{-2\log(X_2)}\big)\). Encontre \(f(u_1,u_2)\).

  10. Considere \[ f(x_1,x_2,x_3)=k (x_1+x_2x_3), \qquad 0<x_1,x_2,x_3<1\cdot \] (a) Determine \(k\) de maneira que \(f\) seja função de densidade.
    (b) Encontre a matriz de covariâncias \(\Sigma_X\), \(X=(X_1,X_2,X_3)\).
    (c) Encontre a matriz de variâncias condicionais de \((X_1,X_2) \, | \, X_1=x_1\).

  11. Considere a função de densidade \[ f(x_1,x_2)=\dfrac{1}{8x_2}\exp\Big( -\big(\dfrac{x_1}{2x_2}+\dfrac{x_2}{4} \big)\Big), \qquad x_1,x_2>0\cdot \] Encontre \(f(x_2)\) e \(f(x_1|x_2)\). Encontre também a melhor aproximação de \(X_1\) por uma função de \(X_2\).