Exercício - Estatística não-paramétrica

2024-04-05


  • Exercício No.1 Os dados sobre o número de juízes nomeados como Membros da Suprema Corte dos Estados Unidos, durante o período 1789-2004, são apresentados no arquivo de dados judges.appointed:

    judges.appointed = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/judges-appointed.csv", 
                                header = TRUE, sep = ";")
    head(judges.appointed)
    ##   X  Ano n
    ## 1 1 1789 2
    ## 2 2 1790 4
    ## 3 3 1791 0
    ## 4 4 1792 1
    ## 5 5 1793 1
    ## 6 6 1794 0


    Estes dados contêm 3 variáveis, mas somente duas de interesse: Ano, que informa o ano da nomeação à corte e n, o número de nomeações em cada ano durante o período 1789–2004.

    1. Verificar se estes dados podem ser considerados como um conjunto de realizações de variáveis aleatórias independentes e distribuídas de forma idêntica. Utilize o teste do sinal e de Bartels.

    2. A seguir, dividindo o período 1789–2004 em partes de 4 anos com base em cada governo, propôe-se verificar a aleatoriedade dessa nova amostra. Os dados a contêm essa informação onde \(n\) representa o número de nomeações durante o \(i\)-ésimo período de presidência. Utilize nova ambos os testes, de sinal e de Bartels.

    judges.appointed1 = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/judges-appointed1.csv", 
                                 header = TRUE, sep = ";")
    head(judges.appointed1)
    ##        Anos Presidente n
    ## 1 1801–1804  Jefferson 1
    ## 2 1805–1808  Jefferson 2
    ## 3 1809–1812    Madison 2
    ## 4 1813–1816    Madison 0
    ## 5 1817–1820     Monroe 0
    ## 6 1821–1824     Monroe 1


  • Exercício No.2 Uma máquina em uma linha de montagem automatizada produz um tipo único de parafuso. Se a máquina falhar mais de três vezes em uma hora, a produção total da linha será retardada. A máquina excedeu frequentemente o número de falhas aceitáveis na última semana. A máquina é cara e mais econômica para consertar, mas a equipe de manutenção não consegue encontrar o problema. O gerente da fábrica pede que você determine se as taxas de falha são aleatórias ou se existe um padrão. O dados disponíveis mostram o número de falhas por hora durante um período de 24 horas.

    Use o teste do sinal e de Bartels para verificar se a taxa de falha é aceitável ou inaceitável quanto à aleatoriedade.

    falhas = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/falhas.csv", 
                                 header = TRUE, sep = ";")
    head(falhas)
    ##   Hora No..de.falhas
    ## 1    1             6
    ## 2    2             4
    ## 3    3             2
    ## 4    4             2
    ## 5    5             7
    ## 6    6             5

  • Exercício No.3 O conjunto de dados Data-pizza.csv contém dados de um serviço de entrega de pizza em Londres, entregando pizzas em três áreas. Cada registro define um pedido/entrega e as propriedades correspondentes. Supõe-se que uma pizza tenha um gosto bom se a temperatura for alta o suficiente, digamos 45 Celsius. Então pode ser interessante para o serviço de entrega de pizza minimizar o tempo de entrega.

    Um conjunto ou quadro de dados contêm 1.209 observações sobre as 17 variáveis a seguir.
    • index: um vetor numérico, indexando os registros (sem faltas aqui).

    • date: a data de entrega

    • week: inteiro, o número da semana

    • weekday: inteiro, o dia da semana

    • area: fator, os três distritos de Londres: Brent, Camden, Westminster

    • count: número inteiro, o número de pizzas entregues

    • rabate: lógico, TRUE se uma gorjeta foi dada

    • price: numérico, o preço total da(s) pizza(s) entregue(s)

    • operator: um fator com níveis Allanah, Maria, Rhonda

    • driver: um fator com níveis Carpenter, Carter, Taylor, Butcher, Hunter, Miller, Farmer

    • delivery_min: numérico, o tempo de entrega em minutos (decimal)

    • temperature: numérico, a temperatura da pizza em graus Celsius quando entregue ao cliente

    • wine_ordered: número inteiro, 1 se o vinho foi pedido, 0 se não

    • wine_delivered: número inteiro, 1 se o vinho foi entregue, 0 se não

    • wrongpizza: lógico, TRUE se uma pizza errada foi entregue

    • quality: fator pedido com níveis low, medium, high, definindo a qualidade da pizza quando entregue


    Dados.pizza = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/Data-pizza.csv", 
                                 header = TRUE, sep = ",")
    head(Dados.pizza)
    ##   X index       date week weekday        area count rabate  price operator
    ## 1 1     1 2014-03-01    9       6      Camden     5   TRUE 65.655   Rhonda
    ## 2 2     2 2014-03-01    9       6 Westminster     2  FALSE 26.980   Rhonda
    ## 3 3     3 2014-03-01    9       6 Westminster     3  FALSE 40.970  Allanah
    ## 4 4     4 2014-03-01    9       6       Brent     2  FALSE 25.980  Allanah
    ## 5 5     5 2014-03-01    9       6       Brent     5   TRUE 57.555   Rhonda
    ## 6 6     6 2014-03-01    9       6      Camden     1  FALSE 13.990  Allanah
    ##    driver delivery_min temperature wine_ordered wine_delivered wrongpizza
    ## 1  Taylor         20.0        53.0            0              0      FALSE
    ## 2 Butcher         19.6        56.4            0              0      FALSE
    ## 3 Butcher         17.8        36.5            0              0      FALSE
    ## 4  Taylor         37.3          NA            0              0      FALSE
    ## 5  Carter         21.8        50.0            0              0      FALSE
    ## 6  Taylor         48.7        27.0            0              0      FALSE
    ##   quality
    ## 1  medium
    ## 2    high
    ## 3    <NA>
    ## 4    <NA>
    ## 5  medium
    ## 6     low


    Queremos saber se a ocorrência de NA nas variáveis temperature e quality são aleatórias e não. Saber isso permite inferir a qualidade so serviço, acredita-se que caso não seja aleatória a ocorrência de dados NA, a informação esteja sendo omitida propositalmente para mascarar problemas de qualidade nas entregas.