Atribuir parcelas de “importância relativa” a cada um de um conjunto de regressores é um dos principais objetivos dos pesquisadores que aplicam a regressão linear, especialmente em ciências que trabalham com dados observacionais.

Embora o tópico seja bastante antigo, os avanços nas capacidades computacionais levaram ao aumento das aplicações de métodos intensivos em computação, como a média sobre ordenações que permitem uma decomposição razoável da variância do modelo.

Este texto serve dois propósitos: comentar acerca do grande e um tanto fragmentado corpo de literatura recente sobre importância relativa e apresentar as propriedades teóricas e empíricas dos principais concorrentes para a decomposição da variância do modelo.

Três axiomas fornecem uma definição formal de importância relativa num modelo estatístico ou econométrico, identificando a probabilidade de qualquer ordenação de variáveis independentes ser ordenada corretamente em relação à sua importância relativa.

A contribuição esperada para o desempenho do modelo das variáveis independentes em relação a esta distribuição é a decomposição marginal proporcional do desempenho do modelo em relação à medida de desempenho. Os componentes de decomposição são iguais ao valor proporcional (Ortmann (2000), Feldman (1999, 2002)) de um jogo cooperativo construído adequadamente. Também são abordados critérios de admissibilidade para medidas de importância relativa, outras medidas de importância relativa, exemplos, procedimentos para construção de intervalos de confiança e extensões e limitações.



1. Introdução


Em muitas aplicações de regressão linear, o objetivo principal da análise é a determinação de uma classificação dos regressores ou uma quantificação explícita da importância relativa de cada regressor para a resposta. Este tipo de aplicação é frequentemente encontrado em disciplinas que dependem de estudos observacionais, como psicologia, biologia, ecologia, economia e assim por diante.

Se todos os regressores não forem correlacionados, existe uma resposta simples e única para a questão da importância relativa. No entanto, é da própria natureza dos dados observacionais que os regressores sejam tipicamente correlacionados. Neste caso, a atribuição de importância relativa torna-se uma tarefa desafiadora, para a qual o resultado padrão dos modelos de regressão linear não é particularmente adequado. O enfoquea aqui é a avaliação da importância relativa baseada na decomposição da variância para a regressão linear com variáveis regressoras aleatórias.

Assim, métricas como a importância do nível, o produto do coeficiente de regressão não padronizado com a média do regressor, defendida, por exemplo, por Achen (1982) e seguintes, que se concentram no valor esperado da resposta, não são abordadas aqui.

Para revisões de trabalhos sobre importância relativa, ver Johnson and Lebreton (2004), Fickel (2001), Firth (1998) ou Kruskal and Majors (1989). Historicamente, Darlington (1968) deu uma visão geral perspicaz se as abordagens de importância relativa disponíveis naquela época, que incluem, entre outras, a chamada “utilidade” de um regressor, definida como o aumento em \(R^2\) se o regressor for adicionado ao modelo que já inclui todos os outros regressores, equivalentes às estatísticas \(t\) ou às chamadas somas de quadrados do Tipo III; ver, por exemplo, Dobson (2002), correlações marginais quadradas simples, coeficientes padronizados quadrados e produtos de coeficientes padronizados com correlações marginais (Hoffman, 1960). Todas estas abordagens levam ao mesmo resultado no caso de regressores não correlacionados, mas podem levar a resultados bastante diferentes para regressores correlacionados e todas estas abordagens têm sido criticadas.

Os clientes da análise estatística solicitam frequentemente uma decomposição do \(R^2\) do modelo completo em contribuições dos diferentes regressores. A proposta de Hoffman (1960) proporciona essa decomposição, mas não é considerada apropriada pela maioria dos autores, principalmente porque algumas contribuições alocadas podem tornar-se negativas. Pratt (1987) forneceu um conjunto de critérios sob os quais a proposta de Hoffman parece justificada, o que convenceu alguns autores a reconsiderar o método, enquanto o outros autores, em consonância também com Darlington (1968), Bring (1996) ou Johnson and Lebreton (2004), rejeitam esse método como inadequado.

Este artigo fornece uma definição precisa e flexível da importância relativa das variáveis explicativas em modelos estatísticos e econométricos. Propõe também quatro critérios fundamentais que as medidas de importância relativa devem cumprir. A definição de importância relativa é baseada em três axiomas que identificam uma distribuição de probabilidade sobre as possíveis ordenações das variáveis em um modelo.

O método resultante, decomposição marginal proporcional (PMD), pode ser usado com uma ampla variedade de modelos e medidas de desempenho, incluindo mínimos quadrados e máxima verossimilhança.

Firth (1998) traça o conceito de importância relativa já em Hooker e Yule (1908). A necessidade de melhores medidas de importância estatística relativa foi recentemente expressa em muitos domínios. Healy (1990) e Schemper (1993) na medicina, Frees (1998) abordando a análise de risco de seguros, Soofi, Retzer e Yasai-Ardekani (2000) na ciência da gestão e Kruskal e Majors (1989) na ciência social são exemplos.

Muitas medidas propostas foram criticadas. Embora as medidas gerais de importância relativa não tenham encontrado uma aceitação generalizada, os métodos especializados encontraram uma aceitação crescente, por exemplo, na análise de séries temporais desde Sims (1980). Na prática, as medidas de significância estatística, como as estatísticas t, são amplamente utilizadas como medidas de facto de importância relativa. Considerações elementares determinam que as medidas de significância estatística não são medidas fiáveis de importância relativa. Por exemplo, a contribuição marginal conjunta para o desempenho do modelo de duas variáveis explicativas aumenta com a sua correlação mútua. No entanto, as suas contribuições marginais para a variância explicada e, portanto, os seus níveis de significância estatística diminuem.

A importância relativa é uma medida da contribuição total. O propósito direto mais importante de uma medida de importância estatística relativa é reduzir o tempo, o esforço e a habilidade necessários para identificar e avaliar o efeito das correlações conjuntas presentes entre as variáveis explicativas. Uma medida sumária útil de importância relativa é de utilidade óbvia.

A primeira proposta que será seguida aqui de Lindeman, Merenda and Gold ([1980); divulgado por Kruskal (1987a,b), que sugeriu principalmente uma variante não aditiva ligeiramente diferente, doravante LMG, que propôs usar somas de quadrados sequenciais, também chamadas de Tipo I, ver, por exemplo, Dobson (2002) do modelo linear cujo tamanho depende da ordem dos regressores no modelo e obteve uma avaliação global calculando a média de todas as ordenações dos regressores.

Esta proposta ainda não conseguiu chegar ao centros estatísticos, presumivelmente por duas razões: primeiro, é computacionalmente desafiador e tornou-se viável apenas com maior poder computacional; segundo, a sua justificação foi originalmente bastante empírica e as suas propriedades ainda não são bem compreendidas. No entanto, existe uma quantidade substancial de literatura que propõe a utilização deste método sob vários nomes: Theil and Chung (1988) adoptaram o princípio e propuseram aplicá-lo à informação em vez de proporções de variação. Num artigo frequentemente citado, Chevan and Sutherland (1991) generalizaram o princípio chamado particionamento hierárquico no seu artigo – para classes mais gerais de modelos de regressão, e Walsh and MacNally (2005) forneceram o pacote R hier.part para aplicar esta abordagem.

Budescu (1993) e Azen and Budescu (2003) introduziram a análise de dominância que – entre outras coisas – atribui exactamente a contribuição do LMG a cada regressor e Azen (2003) forneceu uma macro SAS para os cálculos relevantes. Lipovetsky and Conklin (2001) reinventaram o LMG a partir de uma perspectiva da teoria dos jogos, aplicando o valor de Shapley (Shapley 1953). Stufken (1992) já observou que a proposta de Chevan and Sutherland é equivalente ao valor de Shapley e propôs que a teoria dos jogos poderia fornecer acréscimos úteis à investigação da importância relativa.

A segunda proposta que será discutida veio de Feldman (2005) que introduziu a “decomposição da variância marginal proporcional”, doravante PMVD, que é um análogo ponderado do LMG com pesos dependentes de dados. Feldman mostrou que PMVD é uma instância do valor proporcional da teoria dos jogos (Feldman 1999; Ortmann 2000) e explorou esse fato para simplificar os cálculos. Grömping (2006) apresentou o pacote R relaimpo que calcula a maioria das métricas discutidas até agora, incluindo PMVD.

Há uma necessidade nas ciências aplicadas de métodos apropriados para atribuir importância relativa, como evidenciado por um recente boom de literatura sobre importância relativa; por exemplo, Soofi, Retzer e Yasai-Ardekani 2000; MacNally 2000; Whittaker, Fouladi e Williams 2002; Lebreton, Ployhart and Ladd 2004; Johnson 2004; Budescu e Azen 2004; Conklin, Powaga and Lipovetsky 2004; além das fontes já mencionadas. Devido à falta de uma metodologia convencional aceite para a importante tarefa das investigações de importância relativa, o campo desintegrou-se substancialmente e muitas áreas de aplicação parecem ter reinventado a roda de uma forma ou de outra.

O principal obstáculo ao desenvolvimento de medidas gerais aceitáveis de importância relativa é que a teoria estatística pura tem sido uma base insuficiente. Mas isto não deve excluir a possibilidade de que métodos úteis, ainda que imperfeitos, possam ser desenvolvidos através de outros meios. O mapa de qualquer cartógrafo necessariamente distorce a curvatura da superfície da Terra, mas os mapas são onipresentes.

Os critérios de admissibilidade apresentados neste documento fornecem um conjunto de padrões mínimos para medidas aceitáveis de importância relativa. A medida de importância relativa proposta com mais frequência tem sido a decomposição da variância pela média das contribuições marginais das variáveis independentes sobre todas as ordenações das variáveis. O método de cálculo da média parece ter sido proposto pela primeira vez por Lindeman, Merenda e Gold (1980). Kruskal (1987) e Chevan e Sutherland (1991) propõem essencialmente o mesmo método. Soofi, Retzer e Yasai-Ardekani (2000) mostram que a média é um estimador de entropia máxima. Mostra-se aqui que a média viola o critério de exclusão adequado para medidas de importância relativa. Uma variável com um beta verdadeiro igual a zero pode ter uma importância relativa positiva.

Este artigo tem dois propósitos: (i) reunir os aspectos relevantes da literatura das diversas áreas e (ii) investigar as propriedades estatísticas dos principais concorrentes que decompõem o \(R^2\) do modelo, LMG e PMVD. Uma seção introdutória sobre o modelo linear e sobre critérios de desejabilidade para métricas de importância relativa (Seção 2) será seguida por uma investigação das quantidades teóricas que são consistentemente estimadas pelo LMG e PMVD (Seção 3). A Seção 4 apresenta um estudo de simulação sobre a distribuição dos estimadores, e a Seção 5 discute as implicações dos resultados e áreas de pesquisas futuras.


2. A estrutura para decomposição da variância ne regressão linear


2.1 A perspectiva marginal do modelo de regressão linear


O foco neste artigo é decompor a variância da resposta \(Y\) em proporções devido aos \(X\)’s e ao erro, no modelo de regressão linear \[\begin{equation} \tag{1} Y = \beta_0+\beta_1 X_1+\cdots +\beta_p X_p+\epsilon, \end{equation}\] \(\beta_0,\beta_1,\cdots,\beta_p\) fixos e desconhecidos onde as variáveis aleatórias \(X_j\), \(j = 1,\cdots,p\), denotam \(p\) variáveis regressoras e a variável aleatória \(\epsilon\) denota um termo de erro com esperança 0 e variância \(\sigma^2 > 0\) que não está correlacionado com os regressores. Como assumimos um modelo de regressão com intercepto, pode-se assumir que todos os \(X\) estão centrados, ou seja, têm esperança 0.

As variâncias dos regressores são denotadas como \(\nu_j\), \(j = 1,\cdots,p\), as correlações inter-regressoras como \(\rho_{jk}\) e a matriz de covariância \(p\times p\) entre regressores são consideradas positivas definidas, de modo que qualquer matriz de regressores amostral com \(n > p\) linhas é de posto coluna completa com probabilidade um.

O modelo (1) implica os momentos condicionais \[ \mbox{E}(Y | X_1 ,\cdots , X_p ) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p \] e \[ \mbox{Var}(Y | X_1 ,\cdots, X_p ) = \mbox{Var}(\epsilon| X_1 ,\cdots, X_p ) = \sigma^2 \] e a variância marginal do modelo \[\begin{equation*} \tag{2} \mbox{Var}(Y) = \sum_{j=1}^p \beta_j^2 \nu_j + 2 \sum_{j=1}^{p-1}\sum_{k=j+1}^p \beta_j\beta_k \sqrt{\nu_j\nu_k}\rho_{jk} +\sigma^2\cdot \end{equation*}\]

Ao longo do artigo, os coeficientes verdadeiros \(\beta_1,\cdots,\beta_p\) são aqueles contra os quais as estimativas do modelo (1) são consistentes. Se (1) for mal especificado pela omissão de variáveis relevantes, os coeficientes verdadeiros neste sentido incluem o viés. Observe que (2) depende de \(\beta_j\sqrt{\nu_j}\) apenas, que é o coeficiente que se obteria para o regressor padronizado \(X_j/\sqrt{\nu_j}\).

As duas primeiras somas de (2) constituem a parte da variância que é explicada pelos regressores, enquanto a última soma é a variância do erro. O \(R^2\) de um modelo linear com \(n\) observações independentes é consistente para a proporção das duas primeiras somas em (2) na \(\mbox{Var}(Y)\) total. Desde que os \(X\) não estejam correlacionados entre si, a variância explicada obviamente decompõe-se nas contribuições \(\beta_j^2\nu_j\), que podem ser estimadas consistentemente utilizando as somas dos quadrados únicas para cada regressor.

No caso de \(X\) correlacionados, não é mais óbvio como (2) deve ser decomposto. LMG e PMVD escolhem caminhos diferentes, que são detalhados a seguir. Todas as discussões são em termos de quantidades teóricas para as quais as estimativas convergem para tamanhos de amostra crescentes e a alocação ao regressor \(X_1\) é destacada para investigação. A ordem em que os regressores são inseridos no modelo é denotada como \(r = (r_1,\cdots, r_p)\), que é uma permutação dos índices dos regressores \(\{1,\cdots, p\}\) e o conjunto de regressores que aparecem antes de \(X_1\) na ordem \(r\) é denotado como \(S_1(r)\).

Para simplificar as fórmulas, vamos introduzir as notações \[\begin{equation*} \tag{3} \mbox{evar}(S) = \mbox{Var}(Y)-\mbox{Var}(Y| X_j, j\in S) \end{equation*}\] e \[\begin{equation*} \tag{4} \mbox{svar}(M|S) = \mbox{evar}(M\cup S)-\mbox{evar}(S) \end{equation*}\] para a variância explicada baseada em regressores com índices de \(S\) e a variância explicada adicionada sequencialmente ao adicionar os regressores com índices em \(M\) a um modelo que já contém os regressores com índices em \(S\).

Observe que o verdadeiro coeficiente de determinação \(R^2(S)\) pode ser escrito como \(\mbox{evar}(S)/\mbox{Var}(Y)\). Para a maioria dos propósitos, trabalhar com \(\mbox{evar}\) é equivalente a trabalhar com \(R^2\).


2.2 Critérios de admissibilidade


Os padrões para critérios de admissibilidade devem necessariamente ser consideravelmente maiores do que para axiomas. Os axiomas devem resistir a um teste de razoabilidade. Deve considerar-se pouco razoável que uma medida de importância relativa viole um critério de admissibilidade. Esses critérios resistem a este teste.

Seja \(\Theta\) um modelo estatístico com medida de desempenho do modelo \(\mu\), vetor de parâmetros estimado \(\widehat{\beta}\) e vetor de parâmetros verdadeiro, mas não observado \(\beta\). Considere uma medida de importância relativa \(\phi(\Theta,\mu,\widehat{\beta})\).

  1. Não-negatividade. Todos os componentes da decomposição devem ser maiores ou iguais a zero: \(\phi_i(\Theta,\mu,\widehat{\beta})\geq 0\) para a variável \(i\) no modelo.

  2. Exclusão adequada. Variáveis espúrias incluídas em um modelo não devem receber parcela de decomposição. Se \(\beta_i = 0\) então \(\phi_i(\Theta,\mu,\widehat{\beta})\neq 0\).

  3. Inclusão adequada. As variáveis que fazem parte do modelo devem receber uma parcela de decomposição. Se \(\beta_i\neq 0\) então \(\phi_i(\Theta,\mu,\widehat{\beta})\geq 0\).

  4. Contribuição integral. A importância relativa deve medir a contribuição total para o desempenho do modelo. Seja \(\mathcal{S}\) um conjunto de variáveis tais que para uma variável \(X_i\in\mathcal{S}\) e qualquer variável \(X_j\notin\mathcal{S}\), \(\rho_{ij} = 0\). Então \[ \displaystyle \sum_{X_i\in\mathcal{S}} \phi_i(\Theta,\mu,\widehat{\beta}) =\omega(\mathcal{S}), \] onde \(\omega(\mathcal{S})\) é a contribuição marginal conjunta para o desempenho do modelo das variáveis em \(\mathcal{S}\). A soma dos componentes de importância relativa das variáveis em \(\mathcal{S}\) deve ser igual à sua contribuição marginal conjunta para o desempenho do modelo.

A lista poderia ser ampliada mediante novos pedidos razoáveis; os critérios aqui listados são os mais relevantes para comparar LMG e PMVD entre si e com outras métricas de importância relativa. Os critérios de 1 a 4 são solicitados por vários autores, por exemplo, Feldman 2005, Darlington (1968), Theil (1971), Johnson and Lebreton (2004), Cox (1985) dentre outros.

Feldman (2005) postulou esses quatro critérios no sentido de critérios estritos de admissibilidade e mostrou que o PMVD é admissível nesse sentido, enquanto o LMG não o é. Concordamos que os critérios de 1 a 4 são indispensáveis, de modo que o método de Hoffman (1960) justificado por Pratt (1987) não é mais discutido por violar o critério 1. O critério 1 é atendido tanto pelo LMG quanto pelo PMVD e conjectura-se que será atendido por qualquer métrica não trivial que atenda tanto 1 quanto 4.

A exclusão adequada, critério 2, é cumprida para todas as métricas de importância relativa mencionadas neste artigo – mesmo as simples que foram severamente criticadas na literatura – desde que todos os regressores não sejam correlacionados. Feldman (2005) geralmente solicitava a exclusão, pois considerava “espúrio” um regressor com coeficiente zero.

A exclusão adequada é necessária para consistência com a teoria estatística. O que significaria que uma variável com um beta verdadeiro igual a zero tivesse importância relativa positiva? Observe que a definição diz respeito ao valor verdadeiro e não ao valor amostral da medida de importância relativa. A inclusão adequada também é necessária para a consistência com a teoria estatística. O que significaria que uma variável com beta verdadeiro diferente de zero tivesse importância relativa zero?

A não-negatividade é talvez o critério mais básico. A importância relativa pode ser entendida como uma medida da informação relativa que uma variável contribui para o modelo. A informação é inerentemente não negativa. Da mesma forma, as medidas de desempenho do modelo também são inerentemente não negativas.

A contribuição integral é a essência da importância relativa. É o único critério inevitavelmente violado pelas medidas de significância estatística. A contribuição integral também requer a eficiência de um estimador de importância relativa no sentido da teoria dos jogos. O poder explicativo do modelo completo baseado em todas as variáveis deve ser dividido entre estas. As condições para aplicação da contribuição plena são trivialmente satisfeitas neste caso, uma vez que não existem variáveis que não estejam no conjunto de todas as variáveis.

Estes critérios parecem inquestionáveis. É difícil, também, identificar outras qualidades de uma medida de importância relativa que também devam ser consideradas essenciais. Por exemplo, alguns podem querer fazer da linearidade um critério. A linearidade pode ser inquestionável como um axioma. No entanto, parece não haver nenhuma base estatística ou teórica da informação convincente para considerá-la uma propriedade necessária de um estimador admissível.

Figura 1. Dois modelos causais simples que podem levar ao modelo de regressão linear \[\mbox{E}(Y | X_1,X_2,X_3) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3\cdot\]

Ao pensar em relevância preditiva, um regressor com coeficiente 0 na equação de fato não contribui com nada de útil, visto que todos os regressores com coeficientes diferentes de zero estão disponíveis, de modo que a exclusão é uma solicitação razoável.

Se a questão da importância relativa for feita com uma interpretação causal em mente como é, por exemplo, o caso quando se pretende priorizar opções de intervenção e os regressores estiverem correlacionados, a exclusão é um requisito menos convincente: a Figura 1 acima, retirada de Grömping (2007), mostra gráficos de dois modelos causais – com setas direcionadas indicando uma relação causal direta - que ambas, assumindo a linearidade de todas as relações, implicam o mesmo modelo de regressão linear com \(p = 3\) regressores correlacionados.

No modelo I, o regressor \(X_1\) influencia diretamente tanto os outros regressores quanto a resposta. Se a seta sombreada for excluída do gráfico, o coeficiente \(\beta_1\) torna-se zero, pois na presença de \(X_2\) e \(X_3\) não há valor explicativo adicional em \(X_1\).

No entanto, \(X_1\) exerce obviamente uma influência sobre \(Y\) através dos outros dois regressores e não há razão para solicitar que lhe seja atribuída uma percentagem de zero. No modelo II, \(X_2\) e \(X_1\) trocaram de funções. Novamente, se a seta sombreada for excluída do gráfico, o coeficiente \(\beta_1\) torna-se zero.

Agora, parece muito mais razoável que \(X_1\) receba uma parcela zero. Como o modelo de regressão linear (1) é geralmente compatível com muitos modelos causais diferentes, entre eles também aqueles modelos para os quais a exclusão é claramente não razoável, a exclusão não parece ser um requisito razoável para considerações de importância relativa, se considerações de causalidade motivarem a análise.

Os critérios de 1 a 4 referem-se às propriedades das grandezas teóricas estimadas e também podem ser aplicados às grandezas estimadas, ao substituir todos os valores teóricos pelos seus equivalentes empíricos. Além desses critérios, uma variabilidade razoavelmente baixa dos estimadores em casos de multicolinearidade moderada também é um aspecto importante na avaliação do desempenho de um método.


3. O que estimam as métricas de importância relativa?


3.1 Quantidades estimadas pelo LMG


Como foi mencionado anteriormente, o LMG atribui a \(X_1\) a média sobre as alocações para \(X_1\) de todas as ordenações possíveis de regressores. No caso simples de dois regressores, (2) simplifica para \[\begin{equation*} \tag{5} \beta_1^2 \nu_1 +2\beta_1\beta_2\sqrt{\nu_1\nu_2} \rho_{12}+\beta_2^2\nu_2+\sigma^2\cdot \end{equation*}\]

Com \(n\) observações independentes da distribuição comum de \(Y\), \(X_1\) e \(X_2\), vamos denotar por \(y\) o vetor \(n\times 1\) de respostas centradas e \(x_1\) o vetor \(n\times 1\) de valores centralizados para o regressor \(X_1\). Então a somas de quadrados do para \(X_1\) no papel do primeiro e único regressor é \[\begin{equation*} y^\top x_1 \big(x_1^\top x_1\big)^{-1}x_1^\top y = \big(x_1^\top y)^\top \big(x_1^\top x_1\big)^{-1} \big(x_1^\top y\big), \end{equation*}\] que, quando dividido por \(n\) é, por simples considerações, consistente para \[\begin{equation*} \mbox{svar}\big( \{1\} | \emptyset \big) = \dfrac{\mbox{Cov}(Y,X_1)^2}{\mbox{Var}(X_i)} = \dfrac{\big(\beta_1\nu_1+\beta_2\sqrt{\nu_1\nu_2}\rho_{12}\big)^2}{\nu_1} = \beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}+\beta_2^2\nu_2\rho_{12}^2\cdot \end{equation*}\]

Observe da expressão (5) que, quando sozinho no modelo, o primeiro regressor captura o termo misto completo da varincia \(\beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}++\beta_2^2\nu_2+\sigma^2\), mais parte da contribuição única do segundo regressor em caso de correlação.

A contribuição do segundo regressor pode ser determinada pela diferença para a soma de quadrados do modelo total que, dividido por \(n\), é consistente para \(\mbox{Var}(Y)-\sigma^2\). Assim, a variância atribuída a \(X_2\) após ajustar \(X_1\) torna-se \[\begin{equation*} \mbox{svar}\big(\{2\}|\{1\}\big) = \beta_2^2\nu_2(1 -\rho_{12}^2)\cdot \end{equation*}\]

Por analogia, \(\mbox{svar}\big(\{1\}|\{2\}\big) = \beta_1^2\nu_1(1 -\rho_{12}^2)\). Assim, a alocação teórica de variância estimada para \(X_1\) pela métrica LMG é a média sobre as duas ordens, ou seja, \[\begin{equation*} \beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}+0.5 \big(\beta_2^2\nu_2-\beta_1^2\nu_1\big)\rho^2_{12}\cdot \end{equation*}\]

Cada regressor recebe metade do termo misto em \[ \mbox{Var}(Y)=\beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}+\beta_2^2\nu_2+\sigma^2\cdot \] Além disso, para \(\rho_{12}\neq 0\) o regressor com maior \(\beta_j^2 \nu_j\) doa parte de sua contribuição para o regressor com menor \(\beta^2_j\nu_j\). Este terceiro, somando de \[ \beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}+0.5 \big(\beta_2^2\nu_2-\beta_1^2\nu_1\big)\rho^2_{12} \] cria uma equalização entre regressores correlacionados com \(\beta_j^2\nu_j\) desigual.

À luz da discussão da Figura 1, isso pode ser visto como uma precaução que cuida da incerteza em relação à estrutura do modelo subjacente. O terceiro somando de \[ \beta_1^2\nu_1+2 \beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}+0.5 \big(\beta_2^2\nu_2-\beta_1^2\nu_1\big)\rho^2_{12} \] também causa a violação do critério de exclusão pelo LMG para regressores correlacionados: se \(\beta_1 = 0\), \(\beta_2 \neq 0\), \(\rho_{12}= 0\), haverá um compartilhamento diferente de zero alocado para \(X_1\).

Para \(p\) regressores, a parcela LMG alocada para \(X_1\) é dada como \[\begin{equation*} \begin{array}{rcl} \mbox{LMG}(1) & = & \displaystyle \dfrac{1}{p!}\sum_{\mbox{r} \; \mbox{permutações}} \mbox{svar}\big(\{1\}|S_1(r)\big) \\ & = & \displaystyle \dfrac{1}{p!}\sum_{S\subseteq \{1,2,\cdots,p\}} n(S)! \, \big(p-n(S)-1\big)! \, \mbox{svar}\big(\{1\}|S\big)\cdot \end{array} \end{equation*}\]

Todas as ordens com o mesmo \(S_1(r)\) podem ser resumidas em uma soma. Assim, a carga computacional é reduzida a partir do cálculo de \(p!\) termos para o cálculo de \(2^{p-1}\) termos que são baseados nas \(2^p\) quantidades \(\mbox{evar}(S)\) e \(\mbox{evar}\big(S\cup \{1\}\big)\), \(S\subseteq \{2,\cdots,p\}\).

Pode-se pensar masi intuitivo em LMG(1) como a média sobre os tamanhos do modelo \(i\) das melhorias médias na variância explicada ao adicionar o regressor \(X_1\) a um modelo de tamanho \(i\) sem \(X_1\) (ver Christensen 1992), ou seja, \[\begin{equation*} \mbox{LMG}(1) = \dfrac{1}{p}\sum_{i=0}^{p-1}\left(\sum_{S\subseteq \{2,\cdots,p\} \\ \quad n(S)=i} \mbox{svar}\big(\{1\}|S\big)\bigg/ \binom{p-1}{i} \right)\cdot \end{equation*}\]

Vimos no caso de dois regressores que LMG viola o critério de exclusão. Os outros três desejáveis critérios estão satisfeitos, como pode ser verificado das expressões anteriores, observando-se que o método faz médias de contribuições não negativas que somam a variância total.


3.2 Quantidades Estimadas pelo PMVD


O PMVD pode ser calculado como uma média ponderada das mesmas contribuições médias em \[ \dfrac{1}{p!}\sum_{S\subseteq \{1,2,\cdots,p\}} n(S)! \, \big(p-n(S)-1\big)! \, \mbox{svar}\big(\{1\}|S\big)\cdot \] Cada ordem de regressores recebe um peso dependente de dados. Com pesos \(p(r)\) que serão discutidos abaixo, o PMVD pode ser escrito como \[\begin{equation*} \mbox{PMVD}(1) = \sum_{\mbox{r} \; \mbox{permutações}} p(r)\, \mbox{svar}\big(\{1\} | S_1(r) \big)\cdot \end{equation*}\]

Esta expressão é bastante semelhante à de \((1/p!)\sum_{S\subseteq \{1,2,\cdots,p\}} n(S)! \, \big(p-n(S)-1\big)! \, \mbox{svar}\big(\{1\}|S\big)\), a diferença está nos pesos \(p(r)\), que impedem a combinação dos termos com o mesmo \(S_1(r)\) em um. Observe que PMVD(1) é ineficiente para cálculos, para o cálculo mais eficiente, veja Feldman (2005).

A definição dos pesos \(p(r)\) é a seguinte: Se todos os regressores tiverem coeficientes diferentes de zero, a permutação \(r\)-ésima recebe um peso proporcional a \[\begin{equation*} \begin{array}{rcl} L(r) & = & \prod_{i=1}^{p-1} \mbox{svar}\big(\{r_{i+1},\cdots,r_p\}|\{r_1,r_2,\cdots,r_i\} \big)^{-1} \\ & = & \prod_{i=1}^{p-1} \Big(\mbox{evar}\big(\{1,\cdots,p\}\big) - \mbox{evar}\big(\{r_1,r_2,\cdots,r_i\}\big)\Big)^{-1}, \end{array} \end{equation*}\] isto é, os pesos são \(p(r) = L(r)/\sum_r L(r)\), onde a soma no denominador é sobre todas as \(r\) permutações possíveis.

Os termos no produtório acima estão aumentando de tamanho de \(i = 1\) para \(i = p - 1\). Os pesos são grandes, se o primeiro regressor já capturar uma grande parte da variância explicada, de modo que \[\begin{equation*} \Big(\mbox{evar}\big(\{1,\cdots,p\}\big) - \mbox{evar}\big(\{r_1\}\big)\Big)^{-1} \end{equation*}\] já é relativamente grande.

Além disso, se um conjunto de regressores tiver um valor explicativo baixo condiciodo a todos os outros regressores, os pesos serão grandes se todos os regressores desse conjunto ocorrerem após os demais regressores na ordem. Se alguns coeficientes são zero, considerações limitantes (veja Feldman, 2002) mostram que os pesos se tornam positivos para ordenações com todas as variáveis de coeficiente 0 por último, enquanto qualquer outra ordenação recebe um peso de 0, de fato, os resultados para dados com um ou mais coeficientes estimados em 0 são idênticos aos resultados de modelos com as variáveis de coeficiente 0 omitidas e suas partes fixadas em 0.

Assim, os pesos do PMVD garantem a exclusão, como foram projetados para fazer. Além disso, como qualquer abordagem que pode ser escrita como uma média sobre ordenações, o PMVD também garante os outros três critérios desejáveis, usando o mesmo raciocínio do LMG.

Para ilustração do PMVD, utilizaremos um cenário com dois regressores \(X_1\) e \(X_2\) e coeficientes diferentes de zero. O \(L(r)\) consiste em apenas um fator, com \(L((1, 2)) = \mbox{svar}\big(\{2\}|\{1\}\big)^{-1}\), de modo que o peso \(p((1,2))\) se torna \[\begin{equation*} p((1,2)) = \dfrac{\mbox{svar}\big(\{1\}|\{2\}\big)}{\mbox{svar}\big(\{1\}|\{2\}\big)+\mbox{svar}\big(\{2\}|\{1\}\big)}= \dfrac{\beta_1^2\nu_1}{\beta_1^2\nu_1\beta_2^2\nu_2}\cdot \end{equation*}\]

Com \(p((1,2))\) e \(p((2,1))\) inseridos na expressão de PMVD(1), usando as variâncias sequenciais, a variância alocada para \(X_1\) simplifica para \[\begin{equation*} \beta_1^2\nu_1+\dfrac{\beta_1^2\nu_1}{\beta_1^2\nu_1\beta_2^2\nu_2}2\beta_1\beta_2\sqrt{\nu_1\nu_2}\rho_{12}\cdot \end{equation*}\]

Este resultado para dois regressores tem várias propriedades específicas, nenhuma das quais generaliza para \(p > 2\): a parcela do termo misto que um regressor recebe é proporcional ao seu termo individual no modelo. Além disso, o peso para a ordem \((1,2)\) coincide com a proporção do \(R^2\) alocada para \(X_1\) e os pesos não dependem da correlação entre os \(X\)’s.


3.3 Considerações


Apresentamos duas formas de decomposição de \(R^2\) em regressão linear, LMG e PMVD. O LMG foi reinventado inúmeras vezes por vários pesquisadores e é baseado na abordagem heurística de cálculo da média de todos os pedidos. Feldman (2005) criticou que o LMG viola o critério de exclusão e projetou o PMVD especificamente para satisfazer o critério de exclusão, empregando um conjunto especial de pesos dependentes de dados.

Embora Feldman considerasse a satisfação do critério de exclusão tão desejável que valia a pena o preço do aumento dos esforços computacionais e do aumento da variabilidade das estimativas, foi salientado que a exclusão não é um critério desejável em todas as circunstâncias. Se a exclusão for considerada um critério indispensável para uma aplicação, o PMVD deve ser utilizado apesar de sua maior variação e maior esforço de implementação.

Por outro lado, se se pretende uma interpretação causal das alocações de variância, o comportamento de equalização do LMG deve ser visto como um resultado natural da incerteza do modelo e o LMG deve ser preferido. Felizmente, em muitas aplicações os dois métodos fornecem respostas semelhantes, pelo menos em termos de classificação dos regressores. Pode ser instrutivo aplicar ambos os métodos e comparar seus resultados.

Em muitos artigos sobre importância relativa, os métodos são discutidos de forma puramente descritiva (também observado por Budescu e Azen 2004), ou seja, não há discussão sobre quantidades verdadeiras estimadas ou comportamento estatístico dos estimadores de contribuição de variância. Isto deve-se certamente, pelo menos em parte, à falta de compreensão relativamente às quantidades estimadas. Este artigo fornece um passo para melhorar esta situação. No entanto, mais investigações são necessárias para alcançar uma compreensão completa da decomposição da variância no sentido deste artigo. Embora a estimativa não seja o foco da maioria dos artigos sobre importância relativa, vários pesquisadores reconheceram a necessidade de relatar a variabilidade das importâncias relativas atribuídas e empregaram o bootstrap para determinar intervalos de confiança (macro SAS de Azen, pacote R de Grömping).

O bootstrap também foi mencionado por Lipovetsky e Conklin (2001), Azen e Budescu (2003) e Johnson (2004), por exemplo. Embora não apresentados aqui, alguns estudos de simulação relativos às probabilidades de cobertura dos intervalos de confiança percentuais de bootstrap para LMG mostraram um comportamento um tanto anticonservador, com níveis de erro até cerca de duas vezes o nominal em algumas situações. Certamente são necessárias mais investigações sobre o comportamento dos intervalos de confiança de bootstrap.

Vários autores – entre eles Ehrenberg (1990), Stufken (1992) e Christensen (1992) – expressaram reservas sobre o benefício das medidas de importância relativa. Certamente, para uma compreensão completa de qualquer fenómeno, uma investigação detalhada de dados adequados com base em modelos explicativos orientados pela teoria é muito mais útil do que uma avaliação simplista de importância relativa.

Em particular, um pedido de decomposição do \(R^2\) é muitas vezes motivado por um desejo de priorizar ações de intervenção com a intenção de influenciar a resposta. É importante notar que qualquer intervenção corre o risco ou oportunidade de não só influenciar o(s) regressor(es) visado(s), mas também a estrutura de correlação entre os regressores. Assim, podem ocorrer resultados inesperados quanto a alterações na variância da resposta. Desta forma, o benefício do conceito de decomposição do \(R^2\) é mais limitado do que o usuário típico poderia imaginar. No entanto, se não estiver disponível um modelo explicativo baseado na teoria, as variáveis com elevadas percentagens de variabilidade alocadas são candidatas naturais quando se tenta influenciar a resposta.


4. Exemplo utilizando o pacote R relaimpo


O pacote disponível para download no site

https://prof.bht-berlin.de/groemping/software/relaimpo/?L=1

inclui entre suas métricas a métrica PMVD de Feldman. Como pode haver um problema com as patentes dos EUA 6.640.204 ou 6.961.678 em relação a esta métrica, o pacote que inclui esta métrica é oferecido no site acima sob a versão 2 da GPL com a seguinte restrição geográfica explícita: A distribuição é restrita a países fora dos EUA.

Os dados deste exemplo vêm de um estudo de mexilhões cavalo amostrados nas Marlborough Sounds que são uma extensa rede de vias navegáveis e penínsulas localizados ao norte da Ilha Sul de Nova Zelândia. A variável resposta é a masa muscular, a parte comestível do mexilhão, em gramas. Há quatro variáveis preditores, todas relativas às características de conchas dos mexilhões: largura, altura, comprimento da concha em milímetros (mm) e a masa ou peso da conha em gramas (g).

O objetivo do estudo é desenvolver um modelo que permita uma compreensão de como a distribuição da massa muscular depende das quatro variáveis consideradas preditoras. Espera-se que a função de regressão aumente com os valores dos preditores. Quantificar o quão esse aumento ocorre é também parte deste estudo.

Este estudo foi realizado em 1986 por Mike Camden do Wellington Polytechnic, Wellington, Nova Zelândia e publicado no livro de Cook & Weisberg (1994).

Os dados estão disponíveis no arquivo de dados mexilhoes.csv com as seguintes informações:
library(relaimpo)
mexilhoes = read.csv("http://leg.ufpr.br/~lucambio/Linear/mexilhoes.csv", sep = ";", header = TRUE)
head(mexilhoes)
##     W  H   L   S  M
## 1 318 68 158 345 47
## 2 312 56 148 290 52
## 3 265 46 124 167 27
## 4 222 38 104  67 13
## 5 274 51 143 238 31
## 6 216 35  99  68 14

Em geral percebemos que, até determinado valor de cada variável escolhida como explicativa (altuta, comprimento, massa e largura da concha) existe relação linear positiva entre a explicativa e a resposta (massa muscular). Depois desse determinado valor a relação não é clara, existe muita dispersão nos dados.

Por exemplo, para a massa da concha até 200g a massa muscular cresce até 30g mas, depois disso podemos ter mexilhões com mas massa e não necessariamente sendo os de maior massa na concha. Similar acontece com as outras variáveis.

Uma pergunta: qual seria esse determinado valor até o qual o comportamento entre as variáveis é de uma maneira e depois dele acontece uma mudança na relação entre as variáveis?

par(mar=c(5,4,1,1),pch=19,cex.axis=0.6,mfrow=c(2,2))
plot(mexilhoes$H,mexilhoes$M,ylab='Massa muscular',xlab='Altura da concha');grid()
plot(mexilhoes$L,mexilhoes$M,ylab='Massa muscular',xlab='Comprimento da concha');grid()
plot(mexilhoes$S,mexilhoes$M,ylab='Massa muscular',xlab='Massa da concha');grid()
plot(mexilhoes$W,mexilhoes$M,ylab='Massa muscular',xlab='Largura da concha');grid()

Uma outra forma de apresentarmos as relações ou correlações entre todas as variáveis coletadas é através das seguintes linhas de comando.

library(psych)
par(mar=c(5,4,1,1),pch=19,cex=1.5)
pairs.panels(cbind(mexilhoes),smooth=F,ellipses=T,labels = colnames(mexilhoes))

Observamos fortes correlações entre as variáveis explicativas e também com a resposta. Ainda podemos explorar possíveis correlações não lineares de covariáveis e sua relação com a resposta.

par(mar=c(5,4,1,1),pch=19,cex.axis=0.6,mfrow=c(1,2))
plot((mexilhoes$L)^2,mexilhoes$M,ylab='Massa muscular',
     xlab=expression(paste("Comprimento da concha")^2));grid()
plot((mexilhoes$W)^2,mexilhoes$M,ylab='Massa muscular',
     xlab=expression(paste("Largura da concha")^2));grid()

cor(cbind(mexilhoes$M,(mexilhoes$W)^2,(mexilhoes$L)^2))
##           [,1]      [,2]      [,3]
## [1,] 1.0000000 0.8933722 0.8974288
## [2,] 0.8933722 1.0000000 0.9302907
## [3,] 0.8974288 0.9302907 1.0000000

Observe que fazendo essas transformações nas variáveis largura e comprimento consegue-se aprimorar a correlação entre estas variáveis e a resposta.

M = mexilhoes$M
H = mexilhoes$H
S = mexilhoes$S
W2 = I(mexilhoes$W^2)
L2 = I(mexilhoes$L^2)
ajuste = lm(M ~ W2 + H + L2 + S)
summary(ajuste, correlation = TRUE)
## 
## Call:
## lm(formula = M ~ W2 + H + L2 + S)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.3872  -1.8619  -0.3558   1.3360  13.4175 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -5.343e+00  3.336e+00  -1.601   0.1134    
## W2          -2.007e-05  7.380e-05  -0.272   0.7864    
## H            2.015e-01  1.520e-01   1.326   0.1888    
## L2           6.530e-04  3.122e-04   2.092   0.0398 *  
## S            8.275e-02  1.662e-02   4.979 3.82e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.03 on 77 degrees of freedom
## Multiple R-squared:  0.8876, Adjusted R-squared:  0.8818 
## F-statistic: 152.1 on 4 and 77 DF,  p-value: < 2.2e-16
## 
## Correlation of Coefficients:
##    (Intercept) W2    H     L2   
## W2  0.08                        
## H  -0.76       -0.39            
## L2 -0.09       -0.40 -0.28      
## S   0.75       -0.28 -0.42 -0.16

Observamos que, os testes marginais indicam falta de significância de algumas das covariáveis acerca do qual não faremos maiores investigações.

par(mar=c(5,4,1,1),pch=19,cex.axis=0.6)
plot(mexilhoes$M ~ fitted(ajuste), 
     xlab="Valores preditos pelo modelo", ylab="M: massa ou pesso muscular (g)")
grid();abline(a=0,b=1, col="red4")

Interessa-nos verificar a influência de cada variável na resposta.

calrp = calc.relimp(ajuste, type = c("lmg", "pmvd"), rela = TRUE )
calrp
## Response variable: M 
## Total response variance: 137.4417 
## Analysis based on 82 observations 
## 
## 4 Regressors: 
## W2 H L2 S 
## Proportion of variance explained by model: 88.76%
## Metrics are normalized to sum to 100% (rela=TRUE). 
## 
## Relative importance metrics: 
## 
##          lmg        pmvd
## W2 0.2292051 0.001845138
## H  0.2455434 0.078416487
## L2 0.2380186 0.138518586
## S  0.2872329 0.781219789
## 
## Average coefficients for different model sizes: 
## 
##              1X          2Xs          3Xs           4Xs
## W2 0.0004919767 0.0001792277 4.762346e-05 -2.007254e-05
## H  1.0168670409 0.5434585913 3.316964e-01  2.014849e-01
## L2 0.0024500309 0.0010758524 7.617267e-04  6.529780e-04
## S  0.1327121036 0.0968088782 8.722753e-02  8.274922e-02
plot(calrp)

Este é uma situação diferente da descrita na literatura. Afirma-se que, geralmente, as métricas LMG e PMVD retornam resultados parecidos; mas aqui não. Enquanto com a métrica LMG todas as covariáveis retornam importância relativa similar, utilizando a métrica PMVD percebemos que S, o peso da concha em gramas, responde por 80% da variabilidade explicada pelo modelo, ou seja, responde por 0.71008 do valor do \(R^2\).

Ainda podemos utilizar funções que fornecem intervalos de confiança bootstrap para importâncias relativas. boot.relimp usa o pacote R boot para fazer a inicialização real das métricas solicitadas, o que pode demorar um pouco, enquanto booteval.relimp avalia os resultados e fornece intervalos de confiança. A saída mostrada produz gráficos de barras com indicação de confiança das métricas de importância relativa.

Os intervalos de confiança de bootstrap devem ser usados apenas para fins exploratórios. Podem ser um tanto liberais: simulações limitadas para intervalos percentuais mostraram que as probabilidades de não cobertura podem ser até o dobro das probabilidades nominais.

boot.mexilhoes = boot.relimp(ajuste, type= c("lmg","pmvd"))
plot(booteval.relimp(boot.mexilhoes))


5. Referências


  1. Achen, C.H. (1982). Interpreting and Using Regression. BeverlyHills, CA: Sage. Azen, R. (2003), “Dominance Analysis SAS Macros”.
  2. Azen, R., and Budescu, D. V. (2003). “The Dominance Analysis Approach for Comparing Predictors in Multiple Regression,” Psychological Methods, 8, 129–148.
  3. Bring, J. (1996). “A Geometric Approach to Compare Variables in a Regression Model,” The American Statistician, 50, 57–62.
  4. Budescu, D. V. (1993). “Dominance Analysis: A New Approach to the Problem of Relative Importance in Multiple Regression,” Psychological Bulletin, 114, 542–551.
  5. Budescu, D. V., and Azen, R. (2004). “Beyond Global Measures of Relative Importance: Some Insights from Dominance Analysis,” Organizational Research Methods, 7, 341–350.
  6. Chevan, A., and Sutherland, M. (1991). “Hierarchical Partitioning,” The American Statistician, 45, 90–96.
  7. Christensen, R. (1992). Comment on “Hierarchical Partitioning,” by Chevan and Sutherland, The American Statistician, 46, 74.
  8. Conklin, M., Powaga, K., and Lipovetsky, S. (2004). “Customer Satisfaction Analysis: Identification of Key Drivers,” European Journal of Operational Research, 154, 819–827.
  9. Cox, L. A. (1985). “A New Measure of Attributable Risk for Public Health Applications,” Management Science, 31, 800–813.
  10. Darlington, R. B. (1968). “Multiple Regression in Psychological Research and Practice,” Psychological Bulletin, 69, 161–182.
  11. Dobson, A. (2002). An Introduction to Generalized Linear Models (2nd ed), London: Chapman and Hall.
  12. Ehrenberg, A. S. C. (1990). “The Unimportance of Relative Importance,” The American Statistician, 44, 260.
  13. Feldman, B. (1999). “The Proportional Value of a Cooperative Game,” unpublished manuscript for a contributed paper at the Econometric Society World Congress 2000.
  14. Feldman, B. (2002). “A Dual Model of Cooperative Value”, unpublished manuscript.
  15. Feldman, B. (2005). “Relative Importance and Value,” unpublished manuscript (Version 1.1, March 19 2005).
  16. Fickel, N. (2001). “Sequenzialregression: Eine neodeskriptive Lösung des Multi-kollinearitäts-problems mittels stufenweise bereinigter und synchronisierter Variablen,” Habilitationsschrift, Berline: University of Erlangen-Nuremberg.
  17. Firth, D. (1998). “Relative Importance of Explanatory Variables,” Conference on Statistical Issues in the Social Sciences, Stockholm, October 1998.
  18. Grömping, U. (2006). “Relative Importance for Linear Regression in R: The Package relaimpo,” Journal of Statistical Software, 17, Issue 1.
  19. Hoffman, P. J. (1960). “The Paramorphic Representation of Clinical Judgment”, Psychological Bulletin, 57, 116–131.
  20. Janz, K. F., Burns T. L., Torner J. C., Levy S. M., Paulos, R., Willing M. C., and Warren J. J. (2001), “Physical Activity and Bone Measures in Young Children: The Iowa Bone Development Study,” Pediatrics, 107, 1387–1393.
  21. Johnson, J. W. (2004), “Factors Affecting Relative Weights: The Influence of Sampling and Measurement Error”, Organizational Research Methods, 7, 283–299.
  22. Johnson, J.W., and Lebreton, J. M. (2004), “History and Use of Relative Importance Indices in Organizational Research”, Organizational Research Methods, 7, 238–257.
  23. Kruskal, W. (1987a), “Relative Importance by Averaging over Orderings”, The American Statistician, 41, 6–10. (1987b), Correction to “Relative Importance by Averaging Over Orderings”, The American Statistician, 41, 341.
  24. Kruskal,W., and Majors, R. (1989), “Concepts of Relative Importance in Recent Scientific Literature”, The American Statistician, 43, 2–6.
  25. Lebreton, J. M., Ployhart, R. E., and Ladd, R. T. (2004), “A Monte Carlo Comparison of Relative Importance Methodologies”, Organizational Research Methods, 7, 258–282.
  26. Lindeman, R. H., Merenda, P. F., and Gold, R. Z. (1980), Introduction to Bivariate and Multivariate Analysis, Glenview, IL: Scott, Foresman. Lipovetsky, S., and Conklin,M. (2001), “Analysis of Regression in Game Theory Approach”, Applied Stochastic Models in Business and Industry, 17, 319–330.
  27. MacNally, R. (2000), “Regression and Model Building in Conservation Biology, Biogeography and Ecology: The Distinction Between and Reconciliation of ‘Predictive’ and ‘Explanatory’ Models,” Biodiversity and Conservation, 9, 655–671.
  28. li>Olkin, I., and Siotani, M. (1976). “Asymtotic Distribution of Functions of a Correlation Matrix,” in Essays in Probability and Statistics, ed. S. Ideka, Tokyo: Shinho Tsusho, pp. 235–251.
  29. Ortmann, K. M. (2000). “The Proportional Value of a Positive Cooperative Game,” Mathematical Methods of Operations Research, 51, 235–248.
  30. Pratt, J. W. (1987). “Dividing the Indivisible: Using Simple Symmetry to Partition Variance Explained,” in Proceedings of Second Tampere Conference in Statistics, eds. T. Pukkila and S. Puntanen, University of Tampere, Finland, pp. 245–260.
  31. Shapley, L. (1953). “A Value for n-Person Games,” reprinted in The Shapley Value: Essays in Honor of Lloyd S. Shapley, ed. A. Roth, Cambridge: Cambridge University Press.
  32. Soofi, E. S., Retzer, J. J., and Yasai-Ardekani, M. (2000). “A Framework for Measuring the Importance of Variables with Applications to Management Research and Decision Models,” Decision Sciences, 31, 1–31.
  33. Stufken, J. (1992). “On Hierarchical Partitioning,” The American Statistician, 46, 70–71.
  34. Theil, H. (1971). Principles of Econometrics, New York: Wiley.
  35. Theil, H., and Chung, C.-F. (1988). “Information-Theoretic Measures of Fit for Univariate and MultivariateLinear Regressions,” The American Statistician, 42, 249–252.
  36. Walsh, C., and MacNally, R. (2005). “hier.part: Hierarchical Partitioning,” R-package version 1.0-1.
  37. Whittaker, T. A., Fouladi, R.T., and Williams, N. J. (2002). “Determining Predictor Importance in Multiple Regression Under Varied Correlational And Distributional Conditions,” Journal of Modern Applied Statistical Methods, 1, 354–366.