Exercícios - Estatística não-paramétrica

Fernando Lucambio Pérez

2024-03-21


  • Exercício No.1 Considere o seguinte conjunto de dados:

    beans = read.csv("http://leg.ufpr.br/~lucambio/CE313/20241S/Beans_Dataset.csv")
    names(beans)
    ##  [1] "Area"            "Perimeter"       "MajorAxisLength" "MinorAxisLength"
    ##  [5] "AspectRation"    "Eccentricity"    "ConvexArea"      "EquivDiameter"  
    ##  [9] "Extent"          "Solidity"        "roundness"       "Compactness"    
    ## [13] "ShapeFactor1"    "ShapeFactor2"    "ShapeFactor3"    "ShapeFactor4"   
    ## [17] "Class"
    dim(beans)
    ## [1] 13611    17
    head(beans[,1:6])
    ##    Area Perimeter MajorAxisLength MinorAxisLength AspectRation Eccentricity
    ## 1 28395   610.291        208.1781        173.8887     1.197191    0.5498122
    ## 2 28734   638.018        200.5248        182.7344     1.097356    0.4117853
    ## 3 29380   624.110        212.8261        175.9311     1.209713    0.5627273
    ## 4 30008   645.884        210.5580        182.5165     1.153638    0.4986160
    ## 5 30140   620.134        201.8479        190.2793     1.060798    0.3336797
    ## 6 30279   634.927        212.5606        181.5102     1.171067    0.5204007


    Sete tipos diferentes de feijão seco foram utilizados nesta pesquisa, levando em consideração características como forma, formato, tipo e estrutura da situação do mercado. Um sistema de visão computacional foi desenvolvido para distinguir sete diferentes variedades registradas de feijão seco com características semelhantes, a fim de obter uma classificação uniforme de sementes.

    Para o modelo de classificação, foram obtidas imagens de 13.611 grãos de 7 feijões cadastrados diferentes com câmera de alta resolução. As imagens de feijão obtidas por sistema de visão computacional foram submetidas às etapas de segmentação e extração de características, totalizando 16 características; 12 dimensões e 4 formatos foram obtidos a partir dos grãos.

    Fonte: Dry Bean Dataset. (2020). UCI Machine Learning Repository. https://doi.org/10.24432/C50S4B.

    Informações:
    • Area: (A) A área de uma zona de bean e o número de pixels dentro de seus limites pixels
    • Perimeter: (P) A circunferência do feijão é definida como o comprimento de sua borda.
    • MajorAxisLength: (L) A distância entre as extremidades da linha mais longa que pode ser traçada a partir de um feijão
    • MinorAxisLength: (l) A linha mais longa que pode ser traçada a partir do feijão perpendicular ao eixo principal.
    • AspectRation: (K) Define a relação entre L e l.
    • Eccentricity: (Ec) Excentricidade da elipse tendo os mesmos momentos da região.
    • ConvexArea: (C) Número de pixels no menor polígono convexo que pode conter a área de uma semente de feijão.
    • EquivDiameter: (Ed) O diâmetro de um círculo com a mesma área que a área de uma semente de feijão.
    • Extent: (Ex) A proporção entre os pixels na caixa delimitadora e a área do bean.
    • Solidity: (S) Também conhecida como convexidade. A proporção entre os pixels na casca convexa e aqueles encontrados nos feijões.
    • Roundness: (R) Calculado com a seguinte fórmula: (4piA)/(P^2)
    • Compactness: (CO) Mede a redondeza de um objeto: Ed/L
    • ShapeFactor1: (SF1)
    • ShapeFactor2: (SF2)
    • ShapeFactor3: (SF3)
    • ShapeFactor4: (SF4)
    • Class: SEKER, BARBUNYA, BOMBAY, CALI, DERMASON, HOROZ e SIRA


    Queremos verificar se a distribuição da variável Perimeter é normal, de maneira global e considerando as sub-amostras de Perimeter segundo as diferentes categorias em Class.

    Percebemos que a quantidade de observações é consideravelmente grande, do qual inferimos que as funções implementando os diversos testes de bondade de ajuste estudados não devem funcionar adequadamente. Por esse motivo, propomos as seguintes alternativas de trabalho:

      1. Selecionar uma quantidade grande \(B\) de sub-amostras com reposição, digamos \(B=10000\), de tamanho 100 cada uma e verificar a bondade de ajuste à normalide de cada sub-amostra. Contar o número se amostras não conformes com a distribuição normal, ou seja, nas quais o teste rejeita a normalidade da sub-amostra e avaliar, com essas informações, a bondade de ajuste da amostra original. Isto justifica-se teoricamente porque, dado um conjunto de variáveis aleatórias indepen-dentes \(X_1,\cdots,X_n\), com distribuição normal, então, qualquer sub-coleção \(X_{i_1},\cdots,X_{i_k}\), \(k<n\) também é formada por variáveis aleatórias independentes com distribuição normal.
      1. Utilizar testes de bondade de ajuste desenvolvidos para amostras grandes, por exemplo, veja o artgo: The performance of univariate goodness-of-fit tests for normality based on the empirical characteristic function in large samples, escrito por J. M. VAN ZYL (2016). Department of Mathematical Statistics and Actuarial Science, University of the Free State, Bloemfontein, South Africa. O teste proposto neste artigo, resumidamente, requer os seguintes passos:
        1. Padronizar os dados. Isto pode ser feito utilizando a função base R scale. Os dados originais \(x_1,\cdots,x_n\), padronizados são obtidos definidos como \(z_i=(x_i-\overline{x}_n)/\sqrt{s_n^2}\), sendo \(\overline{x}_n\) e \(s^2_n\) a média e variância amostrais.
        2. Avaliar a função característica empírica nos dados padronizados, ou seja, avaliar a função \(\widehat{\phi}_S(t)=\frac{1}{n}\sum_{i=1}^n \mbox{e}^{itz_i}\). Isto pode ser feito, por exemplo, com o auxílio da função R ecf, no pacote empichar.
        3. Avaliar a estatística de teste \[ \nu_n(1)=\log\left(|\widehat{\phi}_S(1)/\mbox{e}^{-1/2}|\right), \] onde \(\sqrt{n} \, \nu_n(1) \underset{n\to\infty}{\longrightarrow} N(0,0.0431)\), assintoticamente. O valor absoluto, na expressão acima, denota o módulo de um número complexo se o argumento for complexo.
        4. Rejeita-se a normalidade se \[ \left| \nu_n(1) \big/ \sqrt{0.0451/n} \right| = \left| 4.8158\sqrt{n} \, \nu_n(1) \right| > z_{1-\alpha/2}, \] sendo \(z_{1-\alpha/2}\) o percentil da distribuição normal padrão com \(\alpha\) nível de significância.