Objetivo

Verificar se as populações de Botucatu e Curitiba diferem para para um conjunto de variáveis relacionado aos hábitos e histórico das pacientes. As variáveis a serem analisadas são:

  • Nugent
  • Candida
  • Ducha e a sua frequência
  • Sabonete e a sua frequência
  • História de VB
  • Número de episódios
  • História de DST
  • Número de relações sexuais por semana
  • Número de parceiros ao ano
  • Se possui parceiro recente
  • ATC/4 meses
  • Tipo
  • Uso de camisinha e sua frequencia
  • Ocorrência de sangramento na relação sexual
  • Ocorrência de dor na relação sexual
  • Ocorrência de corrimento
  • Ocorrência de odor
  • Prurido
  • pH vaginal
  • Teste de Whiff

Para análise gráfica dos resultados, serão utilizados gráficos de mosaico para as respostas categóricas nominais e ordinais. Para as variáveis métricas será utilizado o histograma e o gráfico de distribuição relativa acumulada empírica.

Nas variáveis categórias, o teste chi-quadrado será empregado para testar a hipótese de independência da distribuição de frequência da resposta com relação à localidade. Para as variáveis métricas será utilizado do teste de Kolmogorov-Smirnov. Em algumas situações, pode haver uma má aproximação para aplicação dos testes mas que poderá ser resolvida no futuro. O conjunto de gráficos e testes de hipótese tem caráter exploratório.

Leitura e asseio dos dados

library(gdata)

# Lê as tabelas de dados da planilha eletrônica.
da <- read.xls("estatistica.xlsx",
               sheet = 1,
               header = TRUE,
               encoding = "latin1",
               stringsAsFactors = FALSE,
               check.names = TRUE)
db <- read.xls("estatistica.xlsx",
               sheet = 2,
               header = TRUE,
               encoding = "latin1",
               stringsAsFactors = FALSE,
               check.names = TRUE)

# Cria coluna com o nome das localidades.
da$loc <- "Curitiba"
db$loc <- "Botucatu"

# Obtém as colunas comuns às duas localidades.
cm <- intersect(names(da), names(db))

# Junta as duas localidades em uma tabela só.
dx <- rbind(da[, cm], db[, cm])

# Corrige os nomes.
names(dx) <- gsub("[^[:alnum:]]", "", tolower(names(dx)))

# Remove colunas vazias.
i <- sapply(dx, class)
dx[, i == "logical"] <- NULL

# Remove variáveis de sigilo.
dx$nome <- NULL
dx$matricula <- NULL

# Estrutura da tabela de dados.
str(dx)
## 'data.frame':    228 obs. of  56 variables:
##  $ noid               : chr  "C1" "C2" "C3" "C4" ...
##  $ datacoleta         : chr  "2014-02-04" "2014-02-04" "2014-02-04" "2014-02-04" ...
##  $ nugent             : int  2 3 0 0 0 1 0 0 1 0 ...
##  $ candida            : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ resideem           : chr  "u" "u" "u" "u" ...
##  $ idade              : int  46 30 40 45 47 25 32 24 17 41 ...
##  $ peso               : num  60 61 64 69 52 48 62 65 46 64 ...
##  $ altura             : num  1.54 1.5 1.61 1.63 1.6 1.6 1.51 1.62 1.6 1.52 ...
##  $ estadocivil        : chr  "u" "u" "u" "u" ...
##  $ cor                : chr  "n" "b" "n" "b" ...
##  $ escolaridade       : int  4 11 9 7 6 11 15 7 9 9 ...
##  $ atividaderemunerada: int  1 1 0 0 1 1 1 0 0 1 ...
##  $ leitequeijo        : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ frequencia         : int  2 0 2 2 2 1 2 2 2 2 ...
##  $ mamaooutros        : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ frequencia1        : int  2 1 0 0 0 1 1 2 2 2 ...
##  $ fumante            : int  1 0 1 0 0 0 0 1 0 0 ...
##  $ nrcigarrosdia      : int  8 NA 15 NA NA NA NA 3 NA NA ...
##  $ alcool             : int  1 1 0 0 1 0 1 0 0 1 ...
##  $ frequenciasem      : int  0 0 NA NA 0 NA 0 NA NA 0 ...
##  $ drogas             : int  0 0 0 0 0 0 1 0 0 0 ...
##  $ qual               : chr  "" "" "" "" ...
##  $ ducha              : int  0 0 0 1 0 0 0 1 0 0 ...
##  $ frequencia2        : int  NA NA NA 1 NA NA NA 2 NA NA ...
##  $ sabonete           : int  0 1 0 0 0 0 1 0 1 1 ...
##  $ frequencia3        : int  NA 1 NA NA NA NA 2 NA 2 2 ...
##  $ outroshabitos      : chr  "" "" "prot diario" "" ...
##  $ dataum             : chr  "2014-01-20" "2014-01-20" "2013-12-25" "2013-11-01" ...
##  $ historiavb         : int  1 1 1 0 1 0 0 0 0 1 ...
##  $ nrepisodiostto     : chr  ">2" "2" ">10" "" ...
##  $ historiadst        : int  1 0 0 0 1 0 0 1 1 0 ...
##  $ qual1              : chr  "sifilis" "" "" "" ...
##  $ nrrssem            : chr  "1" "3" "<1" "2" ...
##  $ parceirosano       : chr  "1" "1" "1" "1" ...
##  $ parceirorecente    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ atc4meses          : int  0 0 0 1 0 0 1 1 1 1 ...
##  $ tipo               : chr  "" "" "" "aco" ...
##  $ camisinha          : int  0 1 1 1 0 1 0 0 1 1 ...
##  $ frequencia4        : int  NA 2 2 2 NA 2 NA NA 2 1 ...
##  $ paridade           : int  1 1 1 1 1 1 1 1 0 1 ...
##  $ complanteriores    : int  1 1 0 0 1 1 1 0 NA 0 ...
##  $ qual2              : chr  "morte fetal 7m" "a/e" "" "" ...
##  $ sangrato           : int  1 0 1 1 1 1 0 0 0 0 ...
##  $ dorrs              : int  1 1 1 0 1 0 0 1 0 0 ...
##  $ frequencia5        : int  0 0 2 NA 0 NA NA 1 NA NA ...
##  $ corrimento         : int  1 0 1 0 0 0 0 0 1 0 ...
##  $ odor               : int  0 0 1 0 0 0 0 0 1 0 ...
##  $ prurido            : int  0 0 0 0 0 0 0 0 1 0 ...
##  $ ph                 : num  4.7 4.4 5 4.7 4.4 4.4 5.8 5 4 4.4 ...
##  $ whiff              : int  0 0 0 0 0 0 2 2 2 2 ...
##  $ jec                : int  -1 0 -1 0 0 0 -1 0 -1 0 ...
##  $ vulvite            : int  0 0 0 0 0 0 0 0 1 0 ...
##  $ outrosachados      : chr  "" "" "cisto parede vag" "" ...
##  $ pcrchlamydia       : int  0 0 0 0 0 0 0 0 1 1 ...
##  $ pcrneisseria       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ loc                : chr  "Curitiba" "Curitiba" "Curitiba" "Curitiba" ...

Análise exploratória

library(latticeExtra)

Nugent

# Nugent.
br <- with(dx, seq(min(nugent, na.rm = TRUE),
                   max(nugent, na.rm = TRUE) + 1,
                   by = 1) - 0.5)

histogram(~nugent | loc,
          data = dx,
          breaks = br,
          ylab = "Porcentagem",
          xlab = "Nugent")
Figura  1: Histograma para a distribuição da variável nugent em cada localidade.

Figura 1: Histograma para a distribuição da variável nugent em cada localidade.

ecdfplot(~nugent,
         groups = loc,
         auto.key = TRUE,
         data = dx,
         ylab = "Frequência relativa acumulada",
         xlab = "Nugent")
Figura  2: Gráfico de distribuição relativa acumulada da variável nugent para cada localidade.

Figura 2: Gráfico de distribuição relativa acumulada da variável nugent para cada localidade.

s <- split(dx$nugent, f = dx$loc)
ks.test(s[[1]], s[[2]])
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  s[[1]] and s[[2]]
## D = 0.40416, p-value = 2.092e-08
## alternative hypothesis: two-sided

Candida

# Candida.
xt <- xtabs(~loc + candida, data = dx)
addmargins(xt)
##           candida
## loc          0   1 Sum
##   Botucatu  97  16 113
##   Curitiba 108   4 112
##   Sum      205  20 225
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Candida")
Figura  3: Gráfico de mosaico para ocorrência de candida por localidade.

Figura 3: Gráfico de mosaico para ocorrência de candida por localidade.

# Teste chi-quadrado para independência.
chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 6.5335, df = 1, p-value = 0.01059

Ducha

# Ducha e a sua frequencia (coluna seguinte).
i <- agrep("^ducha", names(dx)) + 0:1
summary(dx[, i])
##      ducha         frequencia2    
##  Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :0.0000   Median :0.0000  
##  Mean   :0.1681   Mean   :0.7632  
##  3rd Qu.:0.0000   3rd Qu.:2.0000  
##  Max.   :1.0000   Max.   :2.0000  
##  NA's   :2        NA's   :190
# Renomeia as variáveis.
names(dx)[i] <- paste0(c("", "freq."),
                       names(dx)[i][1])

xt <- xtabs(~loc + ducha, data = dx)
addmargins(xt)
##           ducha
## loc          0   1 Sum
##   Botucatu  96  17 113
##   Curitiba  92  21 113
##   Sum      188  38 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Ducha")
Figura  4: Gráfico de mosaico para uso de ducha vaginal por localidade.

Figura 4: Gráfico de mosaico para uso de ducha vaginal por localidade.

# Teste chi-quadrado para independência.
chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 0.28471, df = 1, p-value = 0.5936
i <- match(x = dx$freq.ducha, table = 0:2)
dx$freq.ducha <- c("1-2", "3-6", "7")[i]

i <- is.na(dx$freq.ducha)
dx$freq.ducha[i] <- dx$ducha[i]

xt <- xtabs(~loc + freq.ducha, data = dx)
addmargins(xt)
##           freq.ducha
## loc          0 1-2 3-6   7 Sum
##   Botucatu  96  11   4   2 113
##   Curitiba  92   9   3   9 113
##   Sum      188  20   7  11 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Frequência semanal da ducha")
Figura  5: Gráfico de mosaico para o número semanal de duchas por localidade.

Figura 5: Gráfico de mosaico para o número semanal de duchas por localidade.

# Teste chi-quadrado para independência.
chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 4.8825, df = 3, p-value = 0.1806

Sabonete

# Sabonete e a sua frequência.
i <- agrep("^sabonete", names(dx)) + 0:1
summary(dx[, i])
##     sabonete       frequencia3   
##  Min.   :0.0000   Min.   :0.000  
##  1st Qu.:0.0000   1st Qu.:1.000  
##  Median :0.0000   Median :2.000  
##  Mean   :0.4159   Mean   :1.378  
##  3rd Qu.:1.0000   3rd Qu.:2.000  
##  Max.   :1.0000   Max.   :2.000  
##  NA's   :2        NA's   :138
# Renomeia as variáveis.
names(dx)[i] <- paste0(c("", "freq."),
                       names(dx)[i][1])

xt <- xtabs(~loc + sabonete, data = dx)
addmargins(xt)
##           sabonete
## loc          0   1 Sum
##   Botucatu  80  33 113
##   Curitiba  52  61 113
##   Sum      132  94 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Uso de sabonete")
Figura  6: Gráfico de mosaico para uso de sabonete por localidade.

Figura 6: Gráfico de mosaico para uso de sabonete por localidade.

# Teste chi-quadrado para independência.
chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 13.278, df = 1, p-value = 0.0002685
i <- match(x = dx$freq.sabonete, table = 0:2)
dx$freq.sabonete <- c("1-2", "3-6", "7")[i]

i <- is.na(dx$freq.sabonete)
dx$freq.sabonete[i] <- dx$sabonete[i]

xt <- xtabs(~loc + freq.sabonete, data = dx)
addmargins(xt)
##           freq.sabonete
## loc          0   1 1-2 3-6   7 Sum
##   Botucatu  80   3   6   4  20 113
##   Curitiba  52   1  14  12  34 113
##   Sum      132   4  20  16  54 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Frequência semanal de uso de sabonente íntimo")
Figura  7: Gráfico de mosaico para frequencia semanal de uso de sabonente íntimo por localidade.

Figura 7: Gráfico de mosaico para frequencia semanal de uso de sabonente íntimo por localidade.

# Teste chi-quadrado para independência.
chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 17.769, df = 4, p-value = 0.001369

Histórico de VB

# História de VB.
xt <- xtabs(~loc + historiavb, dx)
addmargins(xt)
##           historiavb
## loc          0   1 Sum
##   Botucatu  62  51 113
##   Curitiba  49  64 113
##   Sum      111 115 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Histórico de VB")
Figura  8: Gráfico de mosaico para histórico de VB por localidade.

Figura 8: Gráfico de mosaico para histórico de VB por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 2.5495, df = 1, p-value = 0.1103
# Número de episódios tratatos de VB.
i <- agrep("episodios", names(dx))
table(dx[, i - 0:1])

names(dx)[i]
mosaicplot(xtabs(~loc + nrepisodiostto, dx))

Histórico de DST

xt <- xtabs(~loc + historiadst, dx)
addmargins(xt)
##           historiadst
## loc          0   1 Sum
##   Botucatu 103  10 113
##   Curitiba  62  51 113
##   Sum      165  61 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Histórico de DST")
Figura  9: Gráfico de mosaico para histórico de DST por localidade.

Figura 9: Gráfico de mosaico para histórico de DST por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 35.926, df = 1, p-value = 2.049e-09

Relações sexuais por semana

# nr de rs/sem
i <- agrep("rssem", names(dx))
table(dx[, i])
## 
##     0  1 <1 10  2  3  4  5  7 
##  1 36 50 11  1 56 40 22  2  8
l <- unique(sort(dx[, i]))
n <- as.integer(gsub("\\D", "", l))
j <- grepl("<", l) * -0.1

dx[, i] <- factor(dx[, i], levels = l[order(n + j)])
# mosaicplot(xtabs(~loc + nrrssem, dx))

# Aglutinando classes para reduzir baixas frequências.
levels(dx[, i]) <- rep(c("0-1", "2-4", ">4", ""),
                       c(3, 3, 3, 1))

xt <- xtabs(~loc + nrrssem, dx)
addmargins(xt)
##           nrrssem
## loc        0-1 2-4  >4     Sum
##   Botucatu  35  70   8   0 113
##   Curitiba  62  48   3   1 114
##   Sum       97 118  11   1 227
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Número de relações sexuais por semana")
Figura  10: Gráfico de mosaico para o número de relações sexuais por semana por localidade.

Figura 10: Gráfico de mosaico para o número de relações sexuais por semana por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 14.886, df = 3, p-value = 0.001917

Parceiros ao ano

# parceiros/ano
i <- agrep("parceiros", names(dx))
summary(dx[, i])
##  parceirosano       parceirorecente 
##  Length:228         Min.   :0.0000  
##  Class :character   1st Qu.:0.0000  
##  Mode  :character   Median :0.0000  
##                     Mean   :0.1593  
##                     3rd Qu.:0.0000  
##                     Max.   :1.0000  
##                     NA's   :2
l <- unique(sort(dx$parceirosano))
n <- as.integer(gsub("\\D", "", l))
j <- grepl("<", l) * -0.1 + grepl(">", l) * 0.1

xt <- xtabs(~loc + parceirosano, dx)
addmargins(xt)
##           parceirosano
## loc              0   1   2  >2   3 Sum
##   Botucatu   0   2 101   8   0   2 113
##   Curitiba   2   8  97   5   2   0 114
##   Sum        2  10 198  13   2   2 227
dx$parceirosano <- factor(dx$parceirosano, levels = l[order(n + j)])

# mosaicplot(xt,
#            main = NA,
#            xlab = "Localidade",
#            ylab = "Número de parceiros por ano")

# Aglutinando classes para reduzir baixas frequências.
levels(dx$parceirosano) <- rep(c("0", "1", ">1", ""),
                               c(1, 1, 3, 1))

xt <- xtabs(~loc + parceirosano, dx)
addmargins(xt)
##           parceirosano
## loc          0   1  >1     Sum
##   Botucatu   2 101  10   0 113
##   Curitiba   8  97   7   2 114
##   Sum       10 198  17   2 227
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Número de parceiros por ano")
Figura  11: Gráfico de mosaico para o número de parceiros ao ano por localidade.

Figura 11: Gráfico de mosaico para o número de parceiros ao ano por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 6.2059, df = 3, p-value = 0.102

Parceiros recentes

xt <- xtabs(~loc + parceirorecente, dx)
addmargins(xt)
##           parceirorecente
## loc          0   1 Sum
##   Botucatu  92  21 113
##   Curitiba  98  15 113
##   Sum      190  36 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Parceiro novo nos últimos 2 meses")
Figura  12: Gráfico de mosaico para parceiro novo nos últimos 2 meses por localidade.

Figura 12: Gráfico de mosaico para parceiro novo nos últimos 2 meses por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 0.82602, df = 1, p-value = 0.3634

ATC por 4 meses

# ATC/4 meses.
i <- agrep("atc4", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  1.0000  0.5265  1.0000  1.0000       2
xt <- xtabs(~loc + atc4meses, dx)
addmargins(xt)
##           atc4meses
## loc          0   1 Sum
##   Botucatu  62  51 113
##   Curitiba  45  68 113
##   Sum      107 119 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Uso de métodos contraceptivos 4 meses antes")
Figura  13: Gráfico de mosaico para ATC/4 meses por localidade.

Figura 13: Gráfico de mosaico para ATC/4 meses por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 4.5438, df = 1, p-value = 0.03304

Tipo

# tipo
i <- agrep("tipo", names(dx))
table(dx[, i])
## 
##     aci aco 
## 109  23  96
xt <- xtabs(~loc + tipo, dx)
addmargins(xt)
##           tipo
## loc            aci aco Sum
##   Botucatu  63  16  35 114
##   Curitiba  46   7  61 114
##   Sum      109  23  96 228
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Tipo")
Figura  14: Gráfico de mosaico para tipo por localidade.

Figura 14: Gráfico de mosaico para tipo por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 13.215, df = 2, p-value = 0.00135

Camisinha

# camisinha
i <- agrep("camisinha", names(dx)) + 0:1
summary(dx[, i])
##    camisinha       frequencia4   
##  Min.   :0.0000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:1.000  
##  Median :0.0000   Median :2.000  
##  Mean   :0.3319   Mean   :1.597  
##  3rd Qu.:1.0000   3rd Qu.:2.000  
##  Max.   :1.0000   Max.   :2.000  
##  NA's   :2        NA's   :156
names(dx)[i[2]] <- "freq.camisinha"

xt <- xtabs(~loc + camisinha, dx)
addmargins(xt)
##           camisinha
## loc          0   1 Sum
##   Botucatu  79  34 113
##   Curitiba  72  41 113
##   Sum      151  75 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Camisinha")
Figura  15: Gráfico de mosaico para uso de camisinha por localidade.

Figura 15: Gráfico de mosaico para uso de camisinha por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 0.71841, df = 1, p-value = 0.3967
xt <- xtabs(~loc + freq.camisinha, dx)
addmargins(xt)
##           freq.camisinha
## loc         1  2 Sum
##   Botucatu 14 20  34
##   Curitiba 15 23  38
##   Sum      29 43  72
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Frequencia no uso de camisinha")
Figura  16: Gráfico de mosaico para frequência uso de camisinha por localidade.

Figura 16: Gráfico de mosaico para frequência uso de camisinha por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 2.9444e-31, df = 1, p-value = 1

Sangramento nas relações sexuais

# Sangramento no ato sexual.
i <- agrep("sangra", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  0.0000  0.1903  0.0000  1.0000       2
# names(dx)[i]
xt <- xtabs(~loc + freq.camisinha, dx)
addmargins(xt)
##           freq.camisinha
## loc         1  2 Sum
##   Botucatu 14 20  34
##   Curitiba 15 23  38
##   Sum      29 43  72
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Sangramento do ato sexual")
Figura  3: Gráfico de mosaico para ocorrência de candida por localidade.

Figura 3: Gráfico de mosaico para ocorrência de candida por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 2.9444e-31, df = 1, p-value = 1

Dor nas relações sexuais

# dor/rs
i <- agrep("dorrs", names(dx)) + 0:1
summary(dx[, i])
##      dorrs         frequencia5    
##  Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :0.0000   Median :1.0000  
##  Mean   :0.4115   Mean   :0.8602  
##  3rd Qu.:1.0000   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :2.0000  
##  NA's   :2        NA's   :135
names(dx)[i[2]] <- "freq.dorrs"

xt <- xtabs(~loc + dorrs, dx)
addmargins(xt)
##           dorrs
## loc          0   1 Sum
##   Botucatu  61  52 113
##   Curitiba  72  41 113
##   Sum      133  93 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Dor na relação sexual")
Figura  17: Gráfico de mosaico para dor na relação sexual por localidade.

Figura 17: Gráfico de mosaico para dor na relação sexual por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 1.8271, df = 1, p-value = 0.1765

Corrimento

# corrimento
i <- agrep("corrimento", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  0.0000  0.3894  1.0000  1.0000       2
# names(dx)[i]
xt <- xtabs(~loc + corrimento, dx)
addmargins(xt)
##           corrimento
## loc          0   1 Sum
##   Botucatu  61  52 113
##   Curitiba  77  36 113
##   Sum      138  88 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Corrimento vaginal")
Figura  18: Gráfico de mosaico para corrimento vaginal por localidade.

Figura 18: Gráfico de mosaico para corrimento vaginal por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 4.1873, df = 1, p-value = 0.04073

Odor

# odor
i <- agrep("^odor", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  0.0000  0.2301  0.0000  1.0000       2
# names(dx)[i]
xt <- xtabs(~loc + odor, dx)
addmargins(xt)
##           odor
## loc          0   1 Sum
##   Botucatu  81  32 113
##   Curitiba  93  20 113
##   Sum      174  52 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Odor")
Figura  19: Gráfico de mosaico para odor por localidade.

Figura 19: Gráfico de mosaico para odor por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 3.0223, df = 1, p-value = 0.08213

Prurido

# prurido
i <- agrep("prurido", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  0.0000  0.1726  0.0000  1.0000       2
# names(dx)[i]
xt <- xtabs(~loc + prurido, dx)
addmargins(xt)
##           prurido
## loc          0   1 Sum
##   Botucatu  91  22 113
##   Curitiba  96  17 113
##   Sum      187  39 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Prurido")
Figura  20: Gráfico de mosaico para prurido por localidade.

Figura 20: Gráfico de mosaico para prurido por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test with Yates' continuity
##  correction
## 
## data:  xt
## X-squared = 0.49582, df = 1, p-value = 0.4813

pH

histogram(~ph | loc,
          data = dx,
          ylab = "Porcentagem",
          xlab = "pH")
Figura  21: Histograma para a distribuição da variável pH em cada localidade.

Figura 21: Histograma para a distribuição da variável pH em cada localidade.

ecdfplot(~ph,
         groups = loc,
         auto.key = TRUE,
         data = dx,
         ylab = "Frequência relativa acumulada",
         xlab = "Nugent")
Figura  22: Gráfico de distribuição relativa acumulada da variável pH para cada localidade.

Figura 22: Gráfico de distribuição relativa acumulada da variável pH para cada localidade.

s <- split(dx$ph, f = dx$loc)
ks.test(s[[1]], s[[2]])
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  s[[1]] and s[[2]]
## D = 0.31858, p-value = 2.09e-05
## alternative hypothesis: two-sided

Teste de Whiff

# Whiff test
i <- agrep("whiff", names(dx))
summary(dx[, i])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   0.000   1.000   1.022   2.000   2.000       2
# names(dx)[i]
xt <- xtabs(~loc + whiff, dx)
addmargins(xt)
##           whiff
## loc          0   1   2 Sum
##   Botucatu  42  32  39 113
##   Curitiba  52   1  60 113
##   Sum       94  33  99 226
mosaicplot(xt,
           main = NA,
           xlab = "Localidade",
           ylab = "Teste de Whiff")
Figura  23: Gráfico de mosaico para uso de camisinha por localidade.

Figura 23: Gráfico de mosaico para uso de camisinha por localidade.

chisq.test(xt)
## 
##  Pearson's Chi-squared test
## 
## data:  xt
## X-squared = 34.64, df = 2, p-value = 3.007e-08

Definições da sessão

sessionInfo()
## R version 3.3.3 (2017-03-06)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 16.04.2 LTS
## 
## locale:
##  [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=pt_BR.UTF-8        LC_COLLATE=en_US.UTF-8    
##  [5] LC_MONETARY=pt_BR.UTF-8    LC_MESSAGES=en_US.UTF-8   
##  [7] LC_PAPER=pt_BR.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  base     
## 
## other attached packages:
## [1] gdata_2.17.0        captioner_2.2.3     latticeExtra_0.6-28
## [4] RColorBrewer_1.1-2  lattice_0.20-35     rmarkdown_1.3      
## [7] knitr_1.15.1       
## 
## loaded via a namespace (and not attached):
##  [1] Rcpp_0.12.9     gtools_3.5.0    digest_0.6.12   rprojroot_1.2  
##  [5] grid_3.3.3      backports_1.0.5 magrittr_1.5    evaluate_0.10  
##  [9] highr_0.6       stringi_1.1.2   tools_3.3.3     stringr_1.2.0  
## [13] yaml_2.1.14     htmltools_0.3.5 methods_3.3.3