Dados do arquivo Hitters, pacote de funções ISLR. Pode ser obtido como mostrado:
dados = read.csv(file = "http://leg.ufpr.br/~lucambio/CE090/Rebatedores.csv", sep = ";", header = TRUE)
head(dados)
## X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 1 -Andy Allanson 293 66 1 30 29 14 1 293 66 1
## 2 -Alan Ashby 315 81 7 24 38 39 14 3449 835 69
## 3 -Alvin Davis 479 130 18 66 72 76 3 1624 457 63
## 4 -Andre Dawson 496 141 20 65 78 37 11 5628 1575 225
## 5 -Andres Galarraga 321 87 10 39 42 30 2 396 101 12
## 6 -Alfredo Griffin 594 169 4 74 51 35 11 4408 1133 19
## CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 1 30 29 14 A E 446 33 20 <NA> A
## 2 321 414 375 N W 632 43 10 475 N
## 3 224 266 263 A W 880 82 14 480 A
## 4 828 838 354 N E 200 11 3 500 N
## 5 48 46 33 N E 805 40 4 91,5 N
## 6 501 336 194 A W 282 421 25 750 A
O conjunto de dados Hitters (rebatedores), contêm informações acerca de jogadores de beisebol da Major League Baseball, os dados correspondem às temporadas de 1986 e 1987. São 322 observações de jogadores da liga principal nas 20 variáveis a seguir.
Fonte: Este conjunto de dados foi retirado da biblioteca StatLib que é mantida na Carnegie Mellon University. Isso faz parte dos dados que foram usados na Sessão de Pôster da Seção de Gráficos ASA de 1988. Os dados salariais foram originalmente da Sports Illustrated, 20 de abril de 1987. As estatísticas de 1986 e de carreira foram obtidas do The 1987 Baseball Encyclopedia Update, publicado pela Collier Books, Macmillan Publishing Company, Nova York.
Referências: James, G., Witten, D., Hastie, T., e Tibshirani, R. (2013) An Introduction to Statistical Learning with applications in R, https://www.statlearning.com, Springer-Verlag, Nova York.
Estamos interessados em estudar à influência no salário anual das outras variáveis considradas.
TAREFA: fazer um estudo descritivo e utilizar às aproximações fatoriais entre as variáveis e entre os jogadores para entender possíveis perfis.
OBSERVAÇÃO: selecionar dados para treino e teste.
set.seed(100)
N = nrow(dados)
index = sample(1:N, 0.7*N)
treino = dados[index,] # cria conjunto de dados de treino
dim(treino)
## [1] 225 21
head(treino)
## X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 202 -Mike Aldrete 216 54 2 27 25 33 1 216 54 2
## 112 -Greg Brock 325 76 16 33 52 37 5 1506 351 71
## 206 -Mike Diaz 209 56 12 22 36 19 2 216 58 12
## 4 -Andre Dawson 496 141 20 65 78 37 11 5628 1575 225
## 311 -Von Hayes 610 186 19 107 98 74 6 2728 753 69
## 98 -Enos Cabell 277 71 2 27 29 14 15 5952 1647 60
## CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 202 27 25 33 N W 317 36 1 75 N
## 112 195 219 214 N W 726 87 3 385 A
## 206 24 37 19 N E 201 6 3 90 N
## 4 828 838 354 N E 200 11 3 500 N
## 311 399 366 286 N E 1182 96 13 1300 N
## 98 753 596 259 N W 360 32 5 <NA> N
teste = dados[-index,] # cria conjunto de dados de teste
dim(teste)
## [1] 97 21
head(teste)
## X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 6 -Alfredo Griffin 594 169 4 74 51 35 11 4408 1133 19
## 8 -Argenis Salazar 298 73 0 24 24 7 3 509 108 0
## 10 -Andre Thornton 401 92 17 49 66 65 13 5206 1332 253
## 17 -Buddy Bell 568 158 20 89 75 73 15 8068 2273 177
## 18 -Buddy Biancalana 190 46 2 24 8 15 5 479 102 5
## 21 -Barry Bonds 413 92 16 72 48 65 1 413 92 16
## CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 6 501 336 194 A W 282 421 25 750 A
## 8 41 37 12 A W 121 283 9 100 A
## 10 784 890 866 A E 0 0 0 1100 A
## 17 1045 993 732 N W 105 290 10 775 N
## 18 65 23 39 A W 102 177 16 175 A
## 21 72 48 65 N E 280 9 5 100 N