Exercício - Estatística não-paramétrica

Exercício No.1 Os dados sobre o número de juízes nomeados como Membros da Suprema Corte dos Estados Unidos, durante o período 1789-2004, são apresentados no arquivo de dados judges.appointed:
```
judges.appointed = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/judges-appointed.csv", 
                            header = TRUE, sep = ";")
head(judges.appointed)
```
```
##   X  Ano n
## 1 1 1789 2
## 2 2 1790 4
## 3 3 1791 0
## 4 4 1792 1
## 5 5 1793 1
## 6 6 1794 0
```
Estes dados contêm 3 variáveis, mas somente duas de interesse: Ano, que informa o ano da nomeação à corte e n, o número de nomeações em cada ano durante o período 1789–2004.
1. Verificar se estes dados podem ser considerados como um conjunto de realizações de variáveis aleatórias independentes e distribuídas de forma idêntica. Utilize o teste do sinal e de Bartels.
2. A seguir, dividindo o período 1789–2004 em partes de 4 anos com base em cada governo, propôe-se verificar a aleatoriedade dessa nova amostra. Os dados a contêm essa informação onde \(n\) representa o número de nomeações durante o \(i\)-ésimo período de presidência. Utilize nova ambos os testes, de sinal e de Bartels.
```
judges.appointed1 = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/judges-appointed1.csv", 
                             header = TRUE, sep = ";")
head(judges.appointed1)
```
```
##        Anos Presidente n
## 1 1801–1804  Jefferson 1
## 2 1805–1808  Jefferson 2
## 3 1809–1812    Madison 2
## 4 1813–1816    Madison 0
## 5 1817–1820     Monroe 0
## 6 1821–1824     Monroe 1
```
Exercício No.2 Uma máquina em uma linha de montagem automatizada produz um tipo único de parafuso. Se a máquina falhar mais de três vezes em uma hora, a produção total da linha será retardada. A máquina excedeu frequentemente o número de falhas aceitáveis na última semana. A máquina é cara e mais econômica para consertar, mas a equipe de manutenção não consegue encontrar o problema. O gerente da fábrica pede que você determine se as taxas de falha são aleatórias ou se existe um padrão. O dados disponíveis mostram o número de falhas por hora durante um período de 24 horas.

Use o teste do sinal e de Bartels para verificar se a taxa de falha é aceitável ou inaceitável quanto à aleatoriedade.
```
falhas = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/falhas.csv", 
                             header = TRUE, sep = ";")
head(falhas)
```
```
##   Hora No..de.falhas
## 1    1             6
## 2    2             4
## 3    3             2
## 4    4             2
## 5    5             7
## 6    6             5
```
Exercício No.3 O conjunto de dados Data-pizza.csv contém dados de um serviço de entrega de pizza em Londres, entregando pizzas em três áreas. Cada registro define um pedido/entrega e as propriedades correspondentes. Supõe-se que uma pizza tenha um gosto bom se a temperatura for alta o suficiente, digamos 45 Celsius. Então pode ser interessante para o serviço de entrega de pizza minimizar o tempo de entrega.
Um conjunto ou quadro de dados contêm 1.209 observações sobre as 17 variáveis a seguir.
- index: um vetor numérico, indexando os registros (sem faltas aqui).
- date: a data de entrega
- week: inteiro, o número da semana
- weekday: inteiro, o dia da semana
- area: fator, os três distritos de Londres: Brent, Camden, Westminster
- count: número inteiro, o número de pizzas entregues
- rabate: lógico, TRUE se uma gorjeta foi dada
- price: numérico, o preço total da(s) pizza(s) entregue(s)
- operator: um fator com níveis Allanah, Maria, Rhonda
- driver: um fator com níveis Carpenter, Carter, Taylor, Butcher, Hunter, Miller, Farmer
- delivery_min: numérico, o tempo de entrega em minutos (decimal)
- temperature: numérico, a temperatura da pizza em graus Celsius quando entregue ao cliente
- wine_ordered: número inteiro, 1 se o vinho foi pedido, 0 se não
- wine_delivered: número inteiro, 1 se o vinho foi entregue, 0 se não
- wrongpizza: lógico, TRUE se uma pizza errada foi entregue
- quality: fator pedido com níveis low, medium, high, definindo a qualidade da pizza quando entregue
```
Dados.pizza = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/Data-pizza.csv", 
                             header = TRUE, sep = ",")
head(Dados.pizza)
```
```
##   X index       date week weekday        area count rabate  price operator
## 1 1     1 2014-03-01    9       6      Camden     5   TRUE 65.655   Rhonda
## 2 2     2 2014-03-01    9       6 Westminster     2  FALSE 26.980   Rhonda
## 3 3     3 2014-03-01    9       6 Westminster     3  FALSE 40.970  Allanah
## 4 4     4 2014-03-01    9       6       Brent     2  FALSE 25.980  Allanah
## 5 5     5 2014-03-01    9       6       Brent     5   TRUE 57.555   Rhonda
## 6 6     6 2014-03-01    9       6      Camden     1  FALSE 13.990  Allanah
##    driver delivery_min temperature wine_ordered wine_delivered wrongpizza
## 1  Taylor         20.0        53.0            0              0      FALSE
## 2 Butcher         19.6        56.4            0              0      FALSE
## 3 Butcher         17.8        36.5            0              0      FALSE
## 4  Taylor         37.3          NA            0              0      FALSE
## 5  Carter         21.8        50.0            0              0      FALSE
## 6  Taylor         48.7        27.0            0              0      FALSE
##   quality
## 1  medium
## 2    high
## 3    <NA>
## 4    <NA>
## 5  medium
## 6     low
```
Queremos saber se a ocorrência de NA nas variáveis temperature e quality são aleatórias e não. Saber isso permite inferir a qualidade so serviço, acredita-se que caso não seja aleatória a ocorrência de dados NA, a informação esteja sendo omitida propositalmente para mascarar problemas de qualidade nas entregas.

Exercício - Estatística não-paramétrica

2024-04-05