====== CE-083: Estatística Computacional I ====== {{ http://www.visualreporting.dk/en/images/r-project-consultant.png?480|}} ===== Detalhes da oferta da disciplina ===== * Professor: [[http://www.leg.ufpr.br/~walmes|Walmes Marques Zeviani]], ([[http://www.leg.ufpr.br|LEG: Laboratório de Estatística e Geoinformação]]) * Curso: Estatística. * Período: 2013/1. * Local: LABEST, LAB A. * Horário: Terça, 17:30-19:00h e Quinta, 17:30-19:00h. * Atendimento: Quarta, 17:00-18:00. * Arquivos: {{http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/|Diretório web com arquivos da disciplina.}} * Cartão de referência: {{http://www.leg.ufpr.br/~walmes/cursoR/guia_rapido_R.pdf|Guia rápido do usuário R}} - tradução por Conrado Oliveira (ex-aluno). * Ementa: {{http://www.leg.ufpr.br/~walmes/ensino/CE083-fichas-2013-05-03.pdf}} ===== Histórico das Aulas do Curso ====== Abaixo o histórico de atividades realizadas em classe e atividades extra classe aplicadas. - 16/04: * Introdução à Estatística Computacional I; * Download, instalação e fundamentos iniciais do aplicativo R; * Mecanismos de busca e consulta à documentação; * Vetores, fundamentos, criação, atributos, seleção. - 18/04: * Tipos de valores, espaço em disco; * Conversão entre tipos de valores; * Operações matemáticas com vetores; * Sequências regulares. - 23/04: * Operações com fatores, criação, atributos; * Amostragem aleatória e números aleatórios; * Agrupando dados em classes; - 25/04: * Formas de entrar com dados para vetores; * Salvar memória de uma sessão do aplicativo; * Ordenação de valores; * Medidas de posição, dispersão e separatrizes; * Análise gráfica, histograma, gráfico de caixas, de barras, de dispersão; * Resumos por estrato. - 30/04: * Matrizes, fundamentos, criação, atributos, seleção, operações matemáticas; * Aplicações com o delineamento experimental sudoku. - 02/05: * Arranjos, fundamentos, criação, seleção; * Tabelas (data.frame), fundamentos, criação, atributos, seleção, ordenação; - 07/05: * Operações com tabelas de dados (data.frame); * Estatísticas por estratificação; * Visualização de dados por estratificação; - 09/05: * Leitura de tabela de dados a partir de arquivos de texto; * Exportação de tabelas; - 16/05: * Leitura de dados da web no formato texto; * Conversão de valores, procura e substituição; * Criando novas variáveis; * Identificação e destaque de pontos e linhas de referência em gráficos; * Visualização por estrato; * Tabelas com resumos por estrato; * Exportação de resultados; - 21/05: * Leitura de dados disponíveis na web no formato texto corrido, fwf e csv; * Parâmetros gráficos: rotação dos eixos, uso de cores; - 23/05: * Leitura de dados no formato html; * Leitura de dados de planilhas eletrônicas (xls); * Fusão de tabelas de dados (merge); * Trabalho 1 (vale 2 sabatinas) em dupla: Pegar um conjunto de dados do [[http://www.ipeadata.gov.br/|ipeadata]] com uma variável registrada em pelo menos 2 anos à nível municipal e abrangendo o Brasil. Entregar relatório de análise dos dados impresso na aula do dia 28/05. Tomar como referência o exemplo em [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/t1.pdf|t1.pdf]]. Conforme o exemplo, o relatório deve ter no máximo 2 páginas, com texto, figuras e/ou tabelas que descrevam os dados, destacando informações relevantes, etc.. - 28/05: * Junção de tabelas de dados (merge); * Tabelas de frequência; * Gráficos de frequência e anotações de texto no gráfico; * Gráfico de segmentos, média e amplitude; * Reordenação de níveis de um fator; - 04/06: * Análise exploratória de dados categóricos (ou qualitativos); * Tabelas de frequência simples e cruzada; * Gráficos de barras, setores e mosaico; * Tratamento de strings; * Operações e visualizações de dados no tempo (datas); * Visualização de dados espaciais; * Paleta de cores. * Trabalho 2 (vale 3 sabatinas) em trio: Fazer o download do aquivo [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/actrans2009.zip|actrans2009.zip]]. O zip contém 12 arquivos de planilha eletrônica (.xls) uma para cada mês do ano de 2009. Cada planilha contém 4 tabelas (Acidente-rodovia, Veículos, Pessoas, Condutores). O conteúdo das planilhas é referente aos acidentes de transito das rodovias federais do Paraná, para o ano de 2009. Os dados são todos vinculados pelo número da ocorrência, presente em todas as tabelas. Na tabela Acidente-rodovia tem-se a descrição das condições do acidente, como hora de ocorrência, localização, causa. Na tabela Veículos tem-se a descrição destes, como ano, placa, marca. Na tabela Pessoas sobre pessoas envolvidas, como os passageiros e testemunhas. Na tabela Condutores tem informações como idade, sexo e estado civil. O objetivo da análise destes dados é descrever a frequência dos acidentes com relação às variáveis disponíveis: hora do acidente, condição meteorológica, causa do acidente, ano, tipo e quantidade de ocupantes do veiculo, idade, sexo, estado civil e categoria de habilitação do condutor. Para isso deve-se importar, para os 12 meses, as tabelas de Acidente-rodovia, Veículos e Condutores para fazer uma análise com todos os meses do ano. Para representar os resultados pode-se usar tabelas (de frequência simples e cruzada, médias ou outras estatísticas) e gráficos (histogramas, gráficos de barras, de setores, de caixas, diagramas de dispersão, de mosaico, de séries no tempo, mapas). Para avaliação deve-se montar um relatório de análise de dados com texto introdutório (justificativa e objetivos) e descrição da análise e seus resultados. Gráficos e tabelas inseridos devem ser comentados, com sua informação usada no texto. Eles devem ter tamanhos apropriados, serem legíveis, com legenda e numeração sequencial no texto. O relatório deve encaminhar para alguma conclusão à respeito dos resultados. Pense que você está informando pessoas dos orgãos ligados ao transporte e/ou saúde e seguradoras que vão usar do seu relatório para tomarem decisões (investimento, por exemplo). Entregar relatório impresso na aula do dia 13/06. Não exceder 4 páginas. Depois dessa data o relatório apenas 1.5 sabatinas. Os interessados em ganhar desempenho devem ler [[http://www.r-statistics.com/2010/05/exporting-r-output-to-ms-word-with-r2wd-an-example-session/|Exporting R output to MS-Word with R2wd]]. - 06/06: * Alterando a forma das tabelas de dados (ampla/longa); * Estatísticas por grupos; * Ordenando tabelas; * Gráficos com barras de erros. - 11/06: * Construção de funções, argumentos, corpo e resultados; * Gráficos de funções paramétricas; - 13/06: * Funções, argumentos com valor padrão, mensagens de aviso e notificação; * Geração de números aleatórios; - 18/06: * Funções para calcular a densidade, a densidade acumulada, a inversa da densidade acumulada e para gerar números aleatórios de distribuições de probabilidade; - 20/06: * Mais sobre geração de números aleatórios com uso de métodos numéricos; * Distribuições de probabilidade mais comuns em aplicações de estatística; * Trabalho 3 (vale 1 sabatina) dupla ou trio: Fazer o download do documento de exemplo [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/t3.pdf|trabalho3.pdf]]. Este documento é um exemplo de como o trabalho deve ser feito. **Deve ser entregue um documento IMPRESSO e não mais o envio de um script por e-mail**. Sem restrição ao número de páginas. Duplas devem fazer duas distribuições e trios devem fazer três. Os grupos, as distribuições de probabilidade e o sorteio das distribuições para os grupos estão no script da aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula18i.R|aula18.R]]. Entregar no dia 27/06. - 25/06: * Fundamentos de inferência; * População, amostra, parâmetro, estimador e estimativa; * Distribuição amostral; * Propriedades de um estimador, vício, variância, consistência; - 27/06: * Gerar números de v.a. discretas; * Distribuição amostral da média; * Teorema central do limite; * Distribuição amostral da média com variância desconhecida; - 02/07: * Princípios de teste de hipótese; * Teste para uma média com variância conhecida; * Teste para uma média com variância desconhecida; * Trabalho 4 (vale 2 sabatinas) dupla ou trio: Acessar o [[http://www.imoveiscuritiba.com.br/|Imóveis Curitiba]] e levantar dados sobre os imóveis. A cada grupo será designado um tipo de imóvel (apartamento padrão ou casa/sobrado padrão) e um bairro. Os bairros e tipo de imóveis para cada grupo estão disponíveis na [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula21i.R|aula 21]] bem como o procedimento para realizar a amostragem dos imóveis e organizar a tabela de registros. Até a aula do dia 09/07 (terça) todos os grupos devem ter os dados tabulados e disponíveis para uso em sala de aula. A aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula24i.Rnw|aula 24]] fornece um exemplo de como fazer o documento em estrutura Sweave. Entregar impresso dia 25/07. - 04/07: * Regressão linear simples, fundamentos; * Especificação, estimação e interpretação; * Análise dos resíduos; * Predição; - 09/07: * Fundamentos de edição de texto em ambiente Latex; * Trabalho 5 (vale 2 sabatinas) dupla ou trio: Documentar teste de hipótese. O arquivo de exemplo da [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula23i.tex|aula 23]] deve ser usado. O sorteio dos testes aos grupos está na aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula23i.R|aula 23]]. Entregar impresso dia 25/07. - 11/07: * Fundamentos de edição de texto em Sweave (Latex+R); - 08/08: Exame final.