====== Variáveis Bidimensionais ====== ===== Introdução ===== Em um levantamento de dados é comum o estudo de muitas variáveis. Ao aplicar um questionário, por exemplo, o interesse pode estar em registrar: sexo, idade, renda, time da preferência, etc...Neste caso, cada respondente tem associado a si um vetor de informações que representa uma observação multidimensional, ou seja, ele é analisado em múltiplos aspectos ou dimensões. Até este ponto, os métodos estatísticos apresentados foram aplicados a uma variável por vez. Tabelas de frequência, gráficos e medidas resumo foram apresentadas para estudar o comportamento de uma única variável. Entretanto, o interesse pode recair sobre o comportamento conjunto de um par de variáveis. Por exemplo, em uma turma de estatística o interesse pode ser o número de meninas que torcem pelo time do Coritiba ou a idade média dos meninos. Note que as informações requisitadas referem-se ao comportamento conjunto de duas variáveis. //**Exemplo 5.1:**Uma amostra de 20 alunos do primeiro ano de uma faculdade foi escolhida. Perguntou-se aos alunos se trabalhavam, variável que foi representada por X, e o número de vestibulares prestados, variável representada por Y.// X:\textit{fato de trabalhar} \in \lbrace \textit{sim,não}\rbrace Y:\textit{número de vestibulares prestados} Com a [[disciplinas:ce067:semana7:teoricas:dados1|amostra]] de 20 alunos, foram obtidas as tabelas de frequência simples para cada uma das duas variáveis: \begin{tabular}{l|c} \hline X & Frequência absoluta\\ \hline sim & 8 \\ não & 12 \\ \hline \end{tabular} \begin{tabular}{l|c} \hline Y & Frequência absoluta\\ \hline 1 & 9\\ 2 & 8 \\ 3 & 3\\ \hline \end{tabular} Neste caso, é possível construir uma tabela que mostre o comportamento conjunto das duas variáveis. Neste caso, ela é chamada de tabela de dupla entrada ou tabela de contingência. \begin{tabular}{|c|c|c|c|c|} \hline X / Y & 1 & 2 & 3 & total \\ \hline sim & 4 & 2 & 2 & 8 \\ \hline não & 5 & 6 & 1 & 12 \\ \hline total & 9 & 8 & 3 & 20 \\ \hline \hline \end{tabular} Repare que nas marginais da tabela de dupla entrada aparecem as frequências das tabelas simples. Por isto, as tabelas simples também são chamadas de tabelas de frequências marginais. A concepção de uma tabela de frequência para um par de variáveis é também utilizada para a modelagem probabilística. Assim como foi apresentada a função de probabilidade para a variável aleatória discreta, uma extensão natural é a função de probabilidade para um vetor (X,Y) de variáveis. Com esta função podemos responder a questões do tipo: ao selecionar um aluno da turma de estatística qual a probabilidade dele trabalhar e ter menos de 20 anos ? == Função de probabilidade conjunta == Sejam //X// e //Y// duas variáveis aleatórias discretas originárias do mesmo fenômeno aleatório, com valores atribuídos a partir do mesmo espaço amostral. A função de probabilidade conjunta é definida como: p(x,y)=P[(X=x)\cap(Y=y)]=P(X=x,Y=y) A função de probabilidade conjunta apresenta algumas propriedades tais como \sum_x \sum _y p(x,y) = 1 \sum_x p(x,y)=p(y) \sum_y p(x,y)=p(x) //**Exemplo 5.2:**Uma região foi subdividida em 10 sub-regiões. Em cada uma delas foram observadas duas variáveis: número de poços artesianos(X) e número de riachos ou rio presentes (Y) na sub-regiao. Os resultados encontrados foram: // \begin{tabular}{c|cc}\hline Sub-região & X & Y \\ & número de poços & número de rios \\ \hline 1 & 0 & 1\\ 2 & 0 & 2\\ 3 & 0 & 1\\ 4 & 0 & 0\\ 5 & 1 & 1\\ 6 & 2 & 0\\ 7 & 1 & 0\\ 8 & 2 & 1\\ 9 & 2 & 2\\ 10 & 0 & 2 \\ \hline \end{tabular} Um estudo vai selecionar, ao acaso, uma das sub-regiões, desta forma cada uma tem probabilidade 1/10 de ser selecionada. Em consequência das probabilidades de seleção, os pares (x,y) que representam os possíveis valores do par de variáveis aleatórias (X,Y) apresentam as seguintes probabilidades: \begin{tabular}{cc}\hline (x,y) & P(X=x,Y=y) \\ \hline (0,0) & 1/10 \\ (0,1) & 2/10 \\ (0,2) & 2/10 \\ (1,0) & 1/10 \\ (1,1) & 1/10 \\ (2,0) & 1/10 \\ (2,1) & 1/10 \\ (2,2) & 1/10 \\ \hline \end{tabular} Existem duas sub-regiões com 0 poços artesianos e número de rios igual a 1, portanto, na tabela acima, a probabilidade de encontrar o par (0,1) é 2/10. Ao dispor as probabilidades conjuntas em uma tabela de dupla entrada, conforme mostrado abaixo, os totais nas linhas e colunas representam probabilidades marginais de X e Y, respectivamente. \begin{tabular}{|c|c|c|c|c|} \hline X / Y & 0 & 1 & 2 & P(X=x) \\ \hline 0 & 1/10 & 2/10 & 2/10 & 5/10 \\ \hline 1 & 1/10 & 1/10 & 0 & 2/10 \\ \hline 2 & 1/10 & 1/10 & 1/10 & 3/10\\ \hline P(Y=y) & 3/10 & 4/10 & 3/10 & 1 \\ \hline \end{tabular} O cálculo de probabilidades marginais representa uma aplicação direta do teorema da probabilidade total. Veja por exemplo o cálculo de P(X=0). P(X=0)=P(X=0,Y=0)+P(X=0,Y=1)+P(X=0,Y=2) =\dfrac{5}{10} ===== Associação entre as Variáveis ===== Uma das questões que é levantada entre pesquisadores de diversas áreas diz respeito a associação entre variáveis. Caso haja o conhecimento da lei do cálculo de probabilidades (modelo probabilístico) para uma variável aleatória discreta, ou melhor, para um vetor de variáveis aleatórias discretas, o conceito de associação estará diretamente vinculado com o conceito de independência entre variáveis aleatórias. Portanto, apresenta-se agora a definição de probabilidade condicional para variáveis aleatórias discretas. === Probabilidade condicional para variáveis aleatórias discretas === Sejam duas variáveis aleatórias discretas X e Y, a probabilidade de X=x dado que Y=y é obtida através da expressão. P(X=x|Y=y)=P(X=x,Y=y)/P(Y=y) === Independência entre variáveis aleatórias discretas === Recorda-se que o conceito de independência visto para dois eventos era relacionado à probabilidade condicional. A extensão para variáveis aleatórias é direta: X,Y são variáveis aleatórias independentes se P(X=x|Y=y)= P(X=x), ∀ (x,y) de modo altenativo, a independência pode ser caracterizada por : P(X=x,Y=y)=P(X=x)P(Y=y), ∀ (x,y) É fundamental entender que as variáveis X e Y serão independentes se e somente se as relações acima forem válidas para **todos** os possíveis pares (x,y). Basta encontrar um par (x0,y0) para o qual os resultados acima não sejam verdadeiros, que X e Y **não serão independentes**. //**Exemplo 5.8:** O centro acadêmico de uma faculdade de administração fez um levantamento da remuneração dos estágios dos alunos, em salários mínimos, com relação ao ano que estão cursando. As probabilidades de cada caso são apresentadas na próxima tabela, incluindo as distribuições marginais.// \begin{tabular}{|c|c|c|c|c|c|c|c|c|}\hline Salário / Ano & 2 & 3 & 4 & 5 & $P(Sal=x)$\\ \hline 2 & 2/25 & 2/25 & 1/25 & 0 & 5/25 \\ \hline 3 & 2/25 & 5/25 & 2/25 & 2/25 & 11/25\\ \hline 4 & 1/25 & 2/25 & 2/25 & 4/25 & 9/25 \\ \hline $P(Ano=y)$&5/25 & 9/25 & 5/25 & 6/25 & 1\\ \hline \end{tabular} As variáveis Salário e Ano de curso não são independentes pois, por exemplo, P[(Sal=3),(Ano=4)]=2/25 \neq P(Sal=3)P(Ano=4)=11/25. Uma maneira bem prática de verificar independência consiste em usar a tabela de dupla entrada, checando se o produto da última linha e última coluna (as marginais) reproduz o corpo da tabela. Se a tabela contiver um zero no seu corpo, basta verificar se uma das marginais correspondentes é zero. Caso nenhuma marginal seja zero, concluímos imediatamente a não independência, uma vez que o produto de dois números não nulos nunca é zero. Vamos estudar agora as propriedades do valor esperado. E(X+Y)=\sum_x \sum_y (x+y) p(x,y) =\sum_x \sum_y x p(x,y)+\sum_x \sum_y y p(x,y) =\sum_x x (\sum_y p(x,y))+\sum_y y (\sum_x p(x,y)) =\sum_x x p(x)+\sum_y y p(y) =E(X)+E(Y) Considere agora o produto //XY//. O valor esperado do produto será o produto será o produto dos valores esperados, sempre que as variáeis forem independentes. Para //X// e //Y// variáveis aleatórias discretas independentes, temos: E(XY)=\sum_x \sum_y xy p(x,y) =\sum_x \sum_y xy p(x)p(y) =(\sum_x x p(x))(\sum_y y p(y)) =E(X)E(Y) OBS: //X// E //Y// independentes \Rightarrow E(XY)=E(X)E(Y) no entanto E(X)E(Y)=E(XY) \not\Rightarrow //X// e //Y// independentes. //**Exemplo 5.13:** Considere as variáveis W e Z com a seguinte distribuição conjunta:// \begin{tabular}{|c|c|c|c|c|}\hline W / Z & 2 & 3 & 4 & $P(W=w)$\\ \hline -1 & 2/12 & 0 & 3/12 & 5/12 \\ \hline 0 & 0 & 1/12 & 1/12 & 2/12 \\ \hline 1 & 1/12 & 2/12 & 2/12 & 5/12 \\ \hline $P(Z=z)$&3/12 & 3/12 & 6/12 & 1\\ \hline \end{tabular} A variável WZ tem função de probabilidade dada por: \begin{tabular}{c|cccccc}\hline WZ & -4 & -2 & 0 & 2 & 3 & 4\\ \hline prob & 3/12&2/12&2/12&1/12&2/12&2/12 \end{tabular} Temos então: E(WZ)=-4 \times 3/12+\cdots+4 \times 2/12=0 Por outro lado, utilizando as distribuições marginais de //W// E //Z//, podemos calcular seus valores esperados. Assim, E(W)=-1 \times 5/12+0 \times 2/12+1 \times 5/12=0 E(Z)=2 \times 3/12+3 \times 3/12+4 \times 6/12=39/12 Vale portanto a relação //E(WZ)=E(W)E(Z)//. No entanto, //W// e //Z// não são independentes, uma vez que por exemplo, P(W=-1,Z=2)=2/12 \neq P(W=-1)P(Z=2)=15/144 e desde que temos um par em que a probabilidade conjunta não é igual ao produto das probabilidades marginais, concluímos que as variáveis aleatórias //W// e //Z// não são independentes. Se as variáveis são dependentes, a relação entre elas pode ser de vários tipos e, no caso de ser linear, vamos definir uma medida dessa dependência. === Covariância de duas variáveis aleatórias === Uma medida de dependência linear entre //X// e //Y// é dada pela covariância: Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] Cov(X,Y)=E(XY)-E(X)E(Y) OBS: No caso em que //X// e //Y// são independentes, temos Cov(X,Y)=0. A partir da covariância, definimos uma medida de dependência linear. === Correlação entre variáveis aleatórias === O coeficiente de correlação entre duas variáveis aleatória discretas //X// e //Y// é calculado pela seguinte expressão: \rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} A divisão pelo produto dos desvios-padrão tem a função de padronizar a medida e torná-la possível de ser utilizada para comparações com outras variáveis. * \rho_{X,Y} é adimensional * -1 \leq \rho_{X,Y} \leq 1 * valores próximos de ±1 indicam correlação forte. //**Exemplo 5.15:** Nos Exemplos 5.5 e 5.12, o par de variáveis (X,Y) representava, o número de poços e de riachos em sub-regiões de uma certa área.// E(XY)=7/10, E(X)=8/10 e E(Y)=1, portanto Cov(X,Y)=E(XY)-E(X)E(Y)=7/10-8/10\times 1=-1/10 Usando as distribuições marginais podemos obter \sigma^2_X=76/100 e \sigma^2_Y=60/100 O coeficiente de correlação será \rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}=\frac{-1/10}{\sqrt{76/100}\sqrt{60/100}} Vamos, agora, deduzir a expressão da variância da soma de duas variáveis aleatórias. $Var(X+Y)=E[(X+Y)-(\mu_X+\mu_Y)]^2$ $=Var(X)+Var(Y)+2Cov(X,Y)$ //**Exemplo 5.15 (cont):** Para a variância de X+Y temos// Var(X+Y)=76/100+60/100+2(-1/10)=116/100 O coeficiente de correlação será ρ=-1/10/√(76/100 × 60/100)=-0,15 ---- [[disciplinas:ce067:teoricas:pearson|Associação entre variáveis quantitativas (para um conjunto de dados)]]