Manipulação e Visualização de Dados

1 Leitura dos dados

Para explorar os recursos básicos de visualização, serão usados dados reais sobre a venda do modelo Renault Duster extraídos da WEB. Os dados estão disponíveis online em

Os dados contém informações sobre o preço de venda (R$, valor) e distância percorrida (km, km) além de outras características descritoras do veículo, como ano de fabricação, cor, tipo de câmbio.

# Dados de carros Duster à venda no webmotors em 26/03/2014.

# Importa a tabela de dados da web.
url <- ""
dus <- read.table(file = url,
                  header = TRUE,
                  sep = "\t",
                  encoding = "utf-8")
## 'data.frame':    699 obs. of  10 variables:
##  $ cor   : chr  "Prata" "Azul" "Prata" "Prata" ...
##  $ km    : int  31442 40800 56000 NA 45000 50000 44000 30000 41000 55000 ...
##  $ ano   : chr  "2011/2012" "2011/2012" "2011/2012" "2011/2012" ...
##  $ valor : num  41990 42500 42900 42990 43800 ...
##  $ cambio: chr  "MANUAL" "MANUAL" "MANUAL" "MANUAL" ...
##  $ poten : num  1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 2 1.6 ...
##  $ trac  : chr  "4X2" "4X2" "4X2" "4X2" ...
##  $ cat   : chr  " EXPRESSION " " " " DYNAMIQUE " " DYNAMIQUE " ...
##  $ novo  : chr  "usado" "usado" "usado" "usado" ...
# Cria ano do veículo com extração regex.
dus$ano <- factor(gsub(x = as.character(dus$ano),
                       pattern = "/\\d{4}$",
                       replacement = ""))

# Quantidade de NA em cada coluna.
apply(dus, MARGIN = 2, FUN = function(x) sum(
## modelo    cor     km    ano  valor cambio  poten   trac    cat   novo 
##      0      0    132      0      0      0      0      0      0      0
# Carrega o pacote `lattice` e `latticeExtra`.


funs <- c(ls("package:lattice"), ls("package:latticeExtra"))

# Funções de alto nível.
c(grep(x = funs, pattern = "^[^.]+plot$", value = TRUE),
  c("histogram", "wireframe", "splom", "qqmath"))
##  [1] "bwplot"       "contourplot"  "densityplot"  "dotplot"      "levelplot"   
##  [6] "parallelplot" "stripplot"    "xyplot"       "ecdfplot"     "horizonplot" 
## [11] "mapplot"      "segplot"      "tileplot"     "histogram"    "wireframe"   
## [16] "splom"        "qqmath"
# Funções de baixo nível.
grep(x = funs, pattern = "^panel\\.", value = TRUE)
##  [1] "panel.3dscatter"        "panel.3dwire"           "panel.abline"          
##  [4] "panel.arrows"           "panel.average"          "panel.axis"            
##  [7] "panel.barchart"         "panel.brush.splom"      "panel.bwplot"          
## [10] ""            "panel.contourplot"      "panel.curve"           
## [13] "panel.densityplot"      "panel.dotplot"          "panel.error"           
## [16] "panel.fill"             "panel.grid"             "panel.histogram"       
## [19] "panel.identify"         ""   "panel.identify.qqmath" 
## [22] "panel.levelplot"        "panel.levelplot.raster" "panel.linejoin"        
## [25] "panel.lines"            ""       "panel.lmline"          
## [28] "panel.loess"            "panel.mathdensity"      "panel.number"          
## [31] "panel.pairs"            "panel.parallel"         "panel.points"          
## [34] "panel.polygon"          "panel.qq"               "panel.qqmath"          
## [37] "panel.qqmathline"       "panel.rect"             "panel.refline"         
## [40] "panel.rug"              "panel.segments"         "panel.smoothScatter"   
## [43] "panel.spline"           "panel.splom"            "panel.stripplot"       
## [46] "panel.superpose"        "panel.superpose.2"      "panel.superpose.plain" 
## [49] "panel.text"             "panel.tmd.default"      "panel.tmd.qqmath"      
## [52] "panel.violin"           "panel.wireframe"        "panel.xyplot"          
## [55] "panel.2dsmoother"       "panel.3dbars"           "panel.3dpolygon"       
## [58] "panel.3dtext"           "panel.ablineq"          "panel.ecdfplot"        
## [61] "panel.ellipse"          "panel.horizonplot"      "panel.key"             
## [64] "panel.levelplot.points" "panel.lmlineq"          "panel.mapplot"         
## [67] "panel.qqmath.tails"     "panel.qqmath.xyarea"    "panel.quantile"        
## [70] "panel.rootogram"        "panel.scaleArrow"       "panel.segplot"         
## [73] "panel.smoother"         "panel.tskernel"         "panel.voronoi"         
## [76] "panel.xblocks"          "panel.xyarea"
# Lista de itens que podem ser customizados.
2 Gráficos para uma variável categórica

# Gráfico de barras e setores.

# Tabela de frequência.
x <- xtabs(~cambio, data = dus)
## [1] "xtabs" "table"
# Gráfico padrão.
         horizontal = FALSE,
         xlab = "Tipo de câmbio",
         ylab = "Frequência absoluta")

# A lattice também trabalha com fórmulas.
tb <-

# CUIDADO: a origem desse gráfico não é o zero!
barchart(Freq ~ cambio,
         data = tb,
         xlab = "Tipo de câmbio",
         ylab = "Frequência absoluta",
         col = c("seagreen", "yellowgreen"))

barchart(Freq ~ cambio,
         data = tb,
         origin = 0, # <-- ATENÇÃO.
         xlab = "Tipo de câmbio",
         ylab = "Frequência absoluta",
         col = c("seagreen", "yellowgreen"))

Deve-se ter cuidado com a refência das barras. O argumento origin = permite especificar a origem.

# Para as cores do carro.
x <- xtabs(~cor, data = dus)
tb <-
##          cor Freq
## 1       Azul   14
## 2     Branco  193
## 3      Cinza   30
## 4 Indefinida    7
## 5      Prata  223
## 6      Preto  155
## 7      Verde   58
## 8   Vermelho   18
## 9      Vinho    1
# Vetor que cores para usar com cada cor de veiculo.
cols <- c("blue", "white", "gray50", "Yellow", "gray90", "black",
          "green4", "red", "red4")

cbind(levels(dus$cor), cols)
##       cols    
##  [1,] "blue"  
##  [2,] "white" 
##  [3,] "gray50"
##  [4,] "Yellow"
##  [5,] "gray90"
##  [6,] "black" 
##  [7,] "green4"
##  [8,] "red"   
##  [9,] "red4"
# Com anotação sobre as barras.
barchart(Freq ~ reorder(cor, -Freq),
         data = tb,
         origin = 0,
         col = cols,
         xlab = "Cores",
         ylab = "Frequência absoluta") +
        panel.text(x = x, y = y, pos = 3, label = y)

3 Gráfico para duas variáveis categóricas

# Gráficos de barras emplilhadas (stacked) e lado a lado.

x <- xtabs(~cambio + ano, data = dus)
##             ano
## cambio       2011 2012 2013 2014
##   AUTOMÁTICO   51   40  100    4
##   MANUAL       88  204  180   32
cols <- c("#660d32", "#bc1a5e")

# Barras empilhadas.
         xlab = "Ano",
         stack = TRUE,
         auto.key = TRUE,
         ylab = "Frequência absoluta")

# Barras lado a lado.
         xlab = "Ano",
         stack = FALSE,
         horizontal = FALSE,
         auto.key = list(space = "right"),
         ylab = "Frequência absoluta")

tb <-
##       cambio  ano Freq
## 1 AUTOMÁTICO 2011   51
## 2     MANUAL 2011   88
## 3 AUTOMÁTICO 2012   40
## 4     MANUAL 2012  204
## 5 AUTOMÁTICO 2013  100
## 6     MANUAL 2013  180
## 7 AUTOMÁTICO 2014    4
## 8     MANUAL 2014   32
barchart(Freq ~ ano,
         groups = cambio,
         auto.key = list(space = "right", title = "Ano"),
         data = tb,
         origin = 0,
         xlab = "Câmbio",
         ylab = "Frequência absoluta")

cols <- c("#07B1FF", "#0CE8BB", "#00FF40", "#BEE80C")
barchart(Freq ~ cambio,
         groups = ano,
         auto.key = list(space = "right", title = "Ano"),
         data = tb,
         origin = 0,
         xlab = "Ano",
         ylab = "Frequência absoluta",
         par.settings = list(superpose.polygon = list(col = cols)))

# Anotações nas barras.

cols <- c("#07B1FF", "#0CE8BB", "#00FF40", "#BEE80C")
barchart(Freq ~ cambio,
         groups = ano,
         auto.key = list(corner = c(0, 1), title = "Ano"),
         data = tb,
         origin = 0,
         xlab = "Ano",
         ylab = "Frequência absoluta",
         par.settings = list(superpose.polygon = list(col = cols))) +
        # print(ls()) # Descomente para ver os objetos do escopo.
        g <- scale(as.integer(groups)/(nlevels(groups) + box.ratio),
                   scale = FALSE)
        panel.text(x = as.integer(x) + g, y = y, pos = 3, label = y)
    }) +
        panel.abline(h = seq(0, 200, by = 25),
                     lty = 2,
                     col = "gray50")
    }, under = TRUE)

# Mais dimensões.
x <- xtabs(~cambio + ano + cor, data = dus)

tb <-
##       cambio  ano  cor Freq
## 1 AUTOMÁTICO 2011 Azul    4
## 2     MANUAL 2011 Azul    3
## 3 AUTOMÁTICO 2012 Azul    0
## 4     MANUAL 2012 Azul    6
## 5 AUTOMÁTICO 2013 Azul    0
## 6     MANUAL 2013 Azul    1
barchart(Freq ~ ano | cor,
         groups = cambio,
         auto.key = list(columns = 2, title = "Câmbio", cex.title = 1.1),
         data = tb,
         origin = 0,
         xlab = "Ano",
         ylab = "Frequência absoluta",
         par.settings = list(superpose.polygon = list(col = cols)))

barchart(Freq ~ ano | cor,
         groups = cambio,
         auto.key = list(columns = 2, title = "Câmbio", cex.title = 1.1),
         data = tb,
         origin = 0,
         xlab = "Ano",
         ylab = "Frequência absoluta",
         scales = list(y = list(relation = "free")),
         par.settings = list(superpose.polygon = list(col = cols)))

4 Gráficos para uma variável contínua

# Histograma.

# Gráfico básico.
# hist(dus$valor)

          data = dus,
          xlab = "Preço de venda (R$)",
          ylab = "Frequência relativa",
          col = "orange") +
    layer(panel.rug(x, col = 1))

# Se breaks é um escalar então entende-se que é uma *sugestão* para o
# número de clases.
          data = dus,
          breaks = 15,
          type = c("percent", "count", "density")[2],
          xlab = "Preço de venda (R$)",
          ylab = "Frequência absoluta",
          col = "orange") +
    layer(panel.rug(x, col = 1))

# Se breaks é um vetor então entende-se que são os limites para
# classificação dos valores.
          data = dus,
          breaks = seq(35000, 75000, by = 2500),
          type = c("percent", "count", "density")[2],
          xlab = "Preço de venda (R$)",
          ylab = "Frequência absoluta",
          col = "orange") +
    layer(panel.rug(x, col = 1))

# Gráfico onde a altura é a densidade e não a frequência.
          data = dus,
          type = c("percent", "count", "density")[3],
          xlab = "Preço de venda (R$)",
          ylab = "Frequência absoluta",
          col = "#ba6dff") +
    layer(panel.rug(x, col = 1))

# Gráficos de densidade.

            data = dus,
            kernel = "rectangular",
            bw = 2000,
            xlab = "Preço de venda (R$)",
            ylab = "Frequência absoluta",
            # plot.points = c("jitter", "rug")[2],
            plot.points = FALSE,
            col = "#ba6dff") +
        panel.rug(x, col = 1)

            groups = cambio,
            auto.key = list(corner = c(0.95, 0.95)),
            data = dus,
            xlab = "Preço de venda (R$)",
            ylab = "Frequência absoluta",
            plot.points = "jitter")

densityplot(~valor | ano,
            groups = cambio,
            auto.key = list(corner = c(0.05, 0.95)),
            data = dus,
            xlab = "Preço de venda (R$)",
            ylab = "Frequência absoluta",
            plot.points = "jitter")

# Gráfico de frequência acumulada empírica.

# Gráfico onde a altura é a densidade e não a frequência.
         data = dus,
         xlab = "Preço de venda (R$)",
         ylab = "Frequência acumulada",
         col = "#ba6dff") +
        panel.rug(x, col = 1)

         groups = cambio,
         auto.key = list(corner = c(0.05, 0.8)),
         data = dus,
         xlab = "Preço de venda (R$)",
         ylab = "Frequência acumulada")

ecdfplot(~valor | ano,
         groups = cambio,
         auto.key = list(corner = c(0.05, 0.85)),
         data = dus,
         xlab = "Preço de venda (R$)",
         ylab = "Frequência acumulada")

5 Gráfico para duas variáveis contínuas

# Diagrama de dispersão.

# Diagrama de dispersão básico.
xyplot(valor ~ km, data = dus)

# Adicionar uma linha de tendência suave.
xyplot(valor ~ km,
       data = dus,
       type = c("p", "smooth"))

xyplot(valor ~ km, data = dus) +
        panel.smoother(x, y)

# Usar cores diferentes para identificar o tipo de câmbio.
xyplot(valor ~ km,
       groups = cambio,
       auto.key = TRUE,
       data = dus)

# Adicionar uma linha de tendência suave.
xyplot(valor ~ km,
       groups = cambio,
       auto.key = TRUE,
       data = dus) +
        panel.smoother(x = x, y = y, col = col.line, span = 0.9)

n <- head(names(sort(table(dus$cor), decreasing = TRUE)), n = 4)

xyplot(valor ~ km | cor,
       groups = cambio,
       auto.key = TRUE,
       data = subset(dus, cor %in% n)) +
        panel.smoother(x = x, y = y, col = col.line, span = 0.9)

6 Gráfico para variável contínua e categórica


# Preço em função dos anos.
bwplot(valor ~ ano, data = dus, pch = "|")

# Edita níveis do fator.
levels(dus$cat) <- trimws(levels(dus$cat))
dus2 <- droplevels(subset(dus, cat != ""))
dus2 <- transform(dus2, valor = valor/1000, km = km/1000)

# Customização do gráfico.
bw_ps <- list(plot.symbol = list(col = 1),
     = list(pch = "|"),
              box.umbrella = list(col = 1, lty = 1),
              box.rectangle = list(col = 1, fill = "seagreen"))

bwplot(valor ~ cat,
       data = dus2,
       xlab = "Modelo",
       ylab = "Preço de venda (R$)",
       par.settings = bw_ps)

bwplot(valor ~ cat | ano,
       data = dus2,
       xlab = "Modelo",
       ylab = "Preço de venda (R$)",
       as.table = TRUE,
       par.settings = bw_ps)

# Indicação do valor da média.
bwplot(valor ~ cat,
       data = dus2,
       xlab = "Modelo",
       ylab = "Preço de venda (R$)",
       par.settings = bw_ps) +
        # panel.xyplot(x = x, y = y, jitter.x = TRUE)
        m <- aggregate(y ~ x, FUN = mean)
        panel.points(x = m$x, y = m$y, col = "red", pch = 19)

# Indicação do valor da média.
bwplot(valor ~ cat | cambio,
       data = dus2,
       xlab = "Modelo",
       ylab = "Preço de venda (R$)",
       par.settings = bw_ps) +
        m <- aggregate(y ~ x, FUN = mean)
        panel.points(x = m$x, y = m$y, col = "red", pch = 19)
        fiv <- by(y, x, FUN = fivenum, simplify = FALSE)
        fiv <-, fiv)
        aiq <- fiv[4, ] - fiv[2, ]
        l <- fiv[2, ] - 1.5 * aiq
        u <- fiv[4, ] + 1.5 * aiq
        i <- seq_along(u)
        panel.segments(x0 = i - 0.5, x1 = i + 0.5, y0 = l, y1 = l,
                       col = "gray50", lty = 3)
        panel.segments(x0 = i - 0.5, x1 = i + 0.5, y0 = u, y1 = u,
                       col = "gray50", lty = 3)


Licença Creative Commons 4.0

Este conteúdo está disponível por meio da Licença Creative Commons 4.0