Dados do arquivo Hitters, pacote de funções ISLR. Pode ser obtido como mostrado:

dados = read.csv(file = "http://leg.ufpr.br/~lucambio/CE090/Rebatedores.csv", sep = ";", header = TRUE)
head(dados)
##                   X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 1    -Andy Allanson   293   66     1   30  29    14     1    293    66      1
## 2       -Alan Ashby   315   81     7   24  38    39    14   3449   835     69
## 3      -Alvin Davis   479  130    18   66  72    76     3   1624   457     63
## 4     -Andre Dawson   496  141    20   65  78    37    11   5628  1575    225
## 5 -Andres Galarraga   321   87    10   39  42    30     2    396   101     12
## 6  -Alfredo Griffin   594  169     4   74  51    35    11   4408  1133     19
##   CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 1    30   29     14      A        E     446      33     20   <NA>         A
## 2   321  414    375      N        W     632      43     10    475         N
## 3   224  266    263      A        W     880      82     14    480         A
## 4   828  838    354      N        E     200      11      3    500         N
## 5    48   46     33      N        E     805      40      4   91,5         N
## 6   501  336    194      A        W     282     421     25    750         A


O conjunto de dados Hitters (rebatedores), contêm informações acerca de jogadores de beisebol da Major League Baseball, os dados correspondem às temporadas de 1986 e 1987. São 322 observações de jogadores da liga principal nas 20 variáveis a seguir.

Fonte: Este conjunto de dados foi retirado da biblioteca StatLib que é mantida na Carnegie Mellon University. Isso faz parte dos dados que foram usados na Sessão de Pôster da Seção de Gráficos ASA de 1988. Os dados salariais foram originalmente da Sports Illustrated, 20 de abril de 1987. As estatísticas de 1986 e de carreira foram obtidas do The 1987 Baseball Encyclopedia Update, publicado pela Collier Books, Macmillan Publishing Company, Nova York.

Referências: James, G., Witten, D., Hastie, T., e Tibshirani, R. (2013) An Introduction to Statistical Learning with applications in R, https://www.statlearning.com, Springer-Verlag, Nova York.

Estamos interessados em estudar à influência no salário anual das outras variáveis considradas.

TAREFA: fazer um estudo descritivo e utilizar às aproximações fatoriais entre as variáveis e entre os jogadores para entender possíveis perfis.

OBSERVAÇÃO: selecionar dados para treino e teste.

set.seed(100) 
N = nrow(dados)
index = sample(1:N, 0.7*N) 
treino = dados[index,] # cria conjunto de dados de treino 
dim(treino)
## [1] 225  21


head(treino)
##                 X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 202 -Mike Aldrete   216   54     2   27  25    33     1    216    54      2
## 112   -Greg Brock   325   76    16   33  52    37     5   1506   351     71
## 206    -Mike Diaz   209   56    12   22  36    19     2    216    58     12
## 4   -Andre Dawson   496  141    20   65  78    37    11   5628  1575    225
## 311    -Von Hayes   610  186    19  107  98    74     6   2728   753     69
## 98   -Enos Cabell   277   71     2   27  29    14    15   5952  1647     60
##     CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 202    27   25     33      N        W     317      36      1     75         N
## 112   195  219    214      N        W     726      87      3    385         A
## 206    24   37     19      N        E     201       6      3     90         N
## 4     828  838    354      N        E     200      11      3    500         N
## 311   399  366    286      N        E    1182      96     13   1300         N
## 98    753  596    259      N        W     360      32      5   <NA>         N


teste = dados[-index,] # cria conjunto de dados de teste
dim(teste)
## [1] 97 21


head(teste)
##                    X AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun
## 6   -Alfredo Griffin   594  169     4   74  51    35    11   4408  1133     19
## 8   -Argenis Salazar   298   73     0   24  24     7     3    509   108      0
## 10   -Andre Thornton   401   92    17   49  66    65    13   5206  1332    253
## 17       -Buddy Bell   568  158    20   89  75    73    15   8068  2273    177
## 18 -Buddy Biancalana   190   46     2   24   8    15     5    479   102      5
## 21      -Barry Bonds   413   92    16   72  48    65     1    413    92     16
##    CRuns CRBI CWalks League Division PutOuts Assists Errors Salary NewLeague
## 6    501  336    194      A        W     282     421     25    750         A
## 8     41   37     12      A        W     121     283      9    100         A
## 10   784  890    866      A        E       0       0      0   1100         A
## 17  1045  993    732      N        W     105     290     10    775         N
## 18    65   23     39      A        W     102     177     16    175         A
## 21    72   48     65      N        E     280       9      5    100         N