Introdução ao Ambiente Estatístico R

Paulo Justiniano Ribeiro Junior

Última atualização: 29 de maio de 2011

Estas notas1 foram inicialmente escritas para um curso de introdução ao sistema estatístico R ministrado para profissionais da EMBRAPA em Brasília, 30/05 a 03/06 de 2005. Desde sua versão inicial o material tem sido constantemente modificado com a expansão, correção e inclusão de tópicos.

O objetivo é ilustrar aspectos básicos do sistema com ênfase na compreensão de aspectos básicos da linguagem, a estrutura e a forma de operar o programa. Nenhum método e/ou modelo estatístico em particular é discutido em detalhes seja em seus fundamentos ou alternativas para análises. Os métodos estatísticos são usados ao longo do texto simplesmente para ilustrar aspectos do uso da linguagem.

Na maior parte do texto assume-se apenas familiaridade com conceitos e métodos básicos de estatística. Alguns tópicos especializados são usados em algumas Sessões e, não sendo de interesse de leitor, podem ser deixados de lado sem prejuízo ao acompanhamento das demais partes do texto. Não será assumido nenhum conhecimento prévio do R. O curso foi preparado e ministrado em ambiente LINUX porém não faz uso de nenhum recurso específico deste sistema operacional. O material pode ser acompanhado utilizando o R instalado em outros sistemas operacionais, tal como Windows®; ou Macintosh.

O texto começa com uma Seção que tem como objetivo "experimentar o R", o que permite ter uma idéia de seus recursos e a forma de trabalhar com este programa. Sugere-se reproduzir e estudar os comandos indicados bem como inspecionar e interpretar os resultados produzidos por tais comandos, o que vai permitir uma familiaridade com aspectos básicos do uso do programa. Espera-se que ao final desta Seção o leitor se sinta a vontade para iniciar o programa e experimentar o seu uso em outros contextos de análises. Ao longo do material mais detalhes o uso do programa R serão apresentados, na maior parte das vezes motivados por exemplos de análise de dados.

Para utilizar o R siga os seguintes passos:

1.
inicie o R em seu computador;
2.
voce verá uma janela de comandos com o símbolo >; que é chamado de prompt do R, indicando que o programa está pronto para receber comandos;
3.
a seguir digite (ou "recorte e cole") os comandos mostrados ao longo deste material ou seus próprios comandos.

No restante deste texto vamos seguir as seguintes convenções.

1 Uma primeira sessão com o R
2 Estatística computacional e o sistema R
3 Introdução
 3.1 O projeto R
 3.2 Um tutorial sobre o R
 3.3 Utilizando o R
 3.4 Cartão de referência
 3.5 Rcmdr - Pacote “R commander” — “menus” para o R
4 Aritmética e Objetos
 4.1 Operações aritméticas
 4.2 Valores faltantes e especiais
 4.3 Objetos
5 Tipos de objetos
 5.1 Vetores
 5.2 Matrizes
 5.3 Arrays
 5.4 Data-frames
 5.5 Listas
 5.6 Funções
 5.7 Que tipo de objeto eu tenho?
 5.8 Exercícios
6 Miscelânia de funcionalidades do R
 6.1 O R como calculadora
 6.2 Gráficos de funções
 6.3 Integração numérica
 6.4 Matemática simbólica no R
 6.5 Exercícios
7 Entrada de dados no R
 7.1 Entrando com dados diretamente no R
 7.2 Lendo dados de um arquivo texto
 7.3 Lendo dados através da área de transferência
 7.4 Importando dados de outros programas
 7.5 Carregando dados já disponíveis no R
 7.6 Acesso a planilhas e bancos de dados relacionais
8 Análise descritiva
 8.1 Descrição univariada
 8.2 O conjunto de dados “milsa”
 8.3 Uma demonstração de recursos gráficos do R
 8.4 Outros dados disponíveis no R
 8.5 Mais detalhes sobre o uso de funções
 8.6 Exercícios
9 Gráficos no R
 9.1 Exemplos dos recursos gráficos
 9.2 Algumas configurações de gráficos no R
 9.3 Alguns exemplos
10 Análise descritiva de tabelas de contingência
 10.1 Tabelas para dois ou mais fatores
 10.2 Extensões: frequências relativas e gráficos
11 Conceitos básicos sobre distribuições de probabilidade
 11.1 Exercícios
12 Distribuições de Probabilidade
 12.1 Distribuição Normal
 12.2 Distribuição Binomial
 12.3 Distribuição Uniforme
 12.4 A função sample()
 12.5 Exercícios
13 Complementos sobre distribuições de probabilidade
 13.1 Probabilidades e integrais
 13.2 Distribuição exponencial
 13.3 Esperança e Variância
 13.4 Gerador de números aleatórios
 13.5 Argumentos vetoriais e lei da reciclagem
 13.6 Aproximação pela Normal
 13.7 Exercícios
14 Explorando distribuições de probabilidade empíricas
 14.1 Estimação de densidades
 14.2 Exercícios
15 Intervalos de confiança – I
 15.1 Média de uma distribuição normal com variância desconhecida
 15.2 Exercícios
16 Funções de verossimilhança
 16.1 Definições e notações
 16.2 Exemplo 1: Distribuição normal com variância conhecida
 16.3 Exemplo 2: Distribuição Poisson
 16.4 Exemplo 3: Distribuição normal com variância desconhecida
 16.5 Exercícios
17 Intervalos de confiança e função de verossimilhança
 17.1 Inferência para a distribuição Bernoulli
 17.2 Exercícios
18 Intervalos de confiança baseados na deviance
 18.1 Média da distribuição normal com variância conhecida
 18.2 IC para o parâmetro da distribuição exponencial
 18.3 Comparando as duas estratégias
 18.4 Exercícios
19 Ilustrando propriedades de estimadores
 19.1 Consistência
 19.2 Momentos das distribuições amostrais de estimadores
 19.3 Não-tendenciosidade
 19.4 Variância mínima
 19.5 Exercícios
20 Testes de hipótese
 20.1 Comparação de variâncias de uma distribuição normal
 20.2 Exercícios
21 Intervalos de confiança e testes de hipótese
 21.1 Média de uma distribuição normal com variância desconhecida
 21.2 Teste χ2 de independência
 21.3 Teste χ2 para aderência à uma certa distribuição
 21.4 Teste para o coeficiente de correlação linear de Pearson
 21.5 Comparação de duas médias
 21.6 Exercícios
22 Transformação de dados
23 Fórmulas e especificação de modelos
 23.1 Fórmulas em gráficos
 23.2 Fórmulas em funções
 23.3 O objeto da classe formula
 23.4 Especificação de modelos com uma covariável
 23.5 Extensões de modelos com uma covariável
 23.6 Especificações mais gerais de modelos
 23.7 Atualizando e modificando fórmulas
24 Experimentos com delineamento inteiramente casualizados
 24.1 Comparando tratamentos
 24.2 Recursos adicionais para comparações múltiplas
 24.3 Análise para variâncias não homogêneas
25 Análise de experimentos em esquema fatorial
 25.1 Lendo os dados
 25.2 Análise exploratória
 25.3 Análise de variância
 25.4 Análise de resíduos
 25.5 Desdobrando interações
 25.6 Teste de Tukey para comparações múltiplas
26 Análise de covariância
 26.1 Exemplo 1
27 Efeitos aleatórios
 27.1 Componentes de variância
28 Usando simulação para ilustrar resultados
 28.1 Relações entre a distribuição normal e a χ2
 28.2 Distribuição amostral da média de amostras da distribuição normal
 28.3 Exercícios
29 Agrupando comandos, execução condicional, controle de fluxo, "loops"e a "família"*apply
 29.1 Agrupando comandos
 29.2 Execução condicional
 29.3 Controle de fluxo
 29.4 Alguns comentários adicionais
 29.5 Evitando "loops-– a "família"*apply
 29.6 Extensões da família *apply
30 Ajuste de modelos não lineares
 30.1 Exemplo: o modelo de van Genutchen
 30.2 Ajustando modelo a vários conjuntos de dados
 30.3 Combinando ajustes
31 Classes para dados espaciais: o pacote sp
 31.1 Conceitos introdutórios e classes para pontos esparsos
 31.2 Pontos em malha regular: grid e pixel
 31.3 Classe para linhas e polígonos
32 Interface com códigos compilados
33 (Re)-direcionando saídas texto e gráficas
 33.1 Texto
 33.2 Gráficos
34 R, ambiente e o sistema de arquivos
 34.1 Ambiente de trabalho
 34.2 Área de trabalho
 34.3 Manipulação de arquivos e diretórios
35 Usando o Sweave
 35.1 O que é e por que adotar o Sweave
 35.2 Usando o Sweave
 35.3 Outras informações úteis para uso do Sweave
 35.4 Controlando o tamanho dos gráficos
 35.5 Exemplos de arquivos em Sweave
 35.6 Links
36 Instalando e usando pacotes (packages) do R
 36.1 Pacotes não-oficiais
37 Construindo pacotes
38 Rodando o R dentro do xemacs
Sobre este texto