Não foi possível enviar o arquivo. Será algum problema com as permissões?
Diferenças

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
projetos:hipertensao [2007/11/24 20:55]
tinetoon
projetos:hipertensao [2007/12/17 20:27] (atual)
joel
Linha 7: Linha 7:
 ===== Objetivos ===== ===== Objetivos =====
  
-Geral : Aplicar técnicas multivariadas ​para encontrar possíveis fatores ​de risco para idosas hipertensas.+Geral : Aplicar técnicas multivariadas ​em um conjunto ​de dados sobre hipertensão.
  
-Específicos+Específicos ​:
  
-  - Aplicar ​métodos de clusterização +  - aplicar ​métodos de clusterização; 
-  - Aplicar ​métodos de classificação +  - aplicar ​métodos de classificação; 
-  - Comparar ​os métodos de classificação  +  - comparar ​os métodos de classificação ​em relação à capacidade preditiva; 
-  - Avaliar a importância das variáveis explicativas+  - levantar, por diferentes metodologias,​ os potenciais fatores de risco para hipertensão.
  
    
  
 ===== Metodologia ===== ===== Metodologia =====
- 
- 
- 
- 
  
 ==== Métodos Multivariados. ==== ==== Métodos Multivariados. ====
  
 +    * Clusterização pelo método das k-médias
     * Regressão Logística     * Regressão Logística
-    * Clusterização 
     * Análise Linear Discriminante     * Análise Linear Discriminante
     * Árvores de Decisão     * Árvores de Decisão
Linha 33: Linha 29:
  
 === Análise de Cluster === === Análise de Cluster ===
-Análise de Cluster é um conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. (SEAGRO) 
-O  objetivo da analise de cluster é agrupar as observações semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si. 
-O primeiro passo da analise de cluster é encontrar as medidas de similaridade. Em seguida deve-se decidir qual a técnica de clusterização será utilizada (hierárquica ou não hierárquica). O terceiro passo é decidir o método de clusterização para a técnica que já foi selecionada (exemplo: método do centróide ​ para a técnica hierárquica de clusterização). Quarto, a decisão considerando o número de clusters serão feitos. Finalmente, a solução dos clusters é interpretada. 
- 
-3.2.1 Medidas de similaridade 
- 
-Cada objeto é representado por um ponto no espaço n-dimensional e, portanto, pode ser agrupado com outros que estejam próximos e mais se assemelham a ele. Dois critérios de melhor associação podem ser utilizados. 
- 
-1. Covariância e Correlação ​ 
- 
-Partindo da matriz de dados D (mxn), obtém-se a matriz de covariância C, onde seus elementos são dados por:  
-  
- 
-ckl é grande e positivo quando, para a maior parte das amostras, os valores das variáveis k e l desviam da média na mesma direção. Portanto, a covariância de duas variáveis é uma medida de sua associação. Para cada elemento da matriz de covariância pode ser calculado o coeficiente de correlação,​ consequentemente a matriz de covariância pode ser transformada numa matriz de correlação R, onde seus elementos são dados por:  
-  ​ 
-onde sk e s1 são os desvios padrões das variáveis K e 1  
-Os valores de rkl são uma covariância padronizada entre -1 e +1.  
- 
-2. Medidas de distâncias ​ 
- 
-Na análise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma função da distância entre os dois pontos representativos destas amostras no espaço n-dimensional. Existem várias formas de de calcular a distância entre dois pontos a e b no espaço n-dimensional:​ 
- 
- Distancia Euclidiana 
-É a maneira mais usual de calcular a distância entre dois pontos (xab). É uma medida invariante a translações,​ porém assume covariâncias iguais entre as classes e em geral não é invariante a transformações lineares (Costa, 1999). É dada por:  
- 
-  
- 
- Distância de Mahalanobis: ​ 
-Considera que as superfícies de cada classe são elipsóides centradas na média. No caso especial em que a covariância é zero e a variância é a mesma para todas as variáveis, as superfícies são esferas e a distancia de Mahalanobis fica equivalente a distancia euclidiana. Pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito através da soma ou da média da distância entre todos os padrões de duas classes diferentes. 
- 
- Distancia de Manhattan ou “city-block” 
-A distancia de manhattan é uma simplificação da distancia euclidiana, por isso é mais simples e sua emplementação é mais fácil. É mais eficiente para aplicações em tempo real devido a sua simplicidade (Kugler, 2003). 
- 
  
 +Denomina-se Análise de Cluster ou Análise de Agrupamentos o conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. O  objetivo da analise de cluster é agrupar objetos ou variáveis semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si.
  
 === Árvores de Decisão === === Árvores de Decisão ===
Linha 84: Linha 48:
  
 Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no  pacote MASS do  R  realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos. Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no  pacote MASS do  R  realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos.
- 
  
  
 === Redes Neurais Artificiais === === Redes Neurais Artificiais ===
- 
  
 Apesar de todo mito que envolve o uso de Redes Neurais Artificiais,​ o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes,​ enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias,​ chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes,​ desde que satisfeitas algumas condições. Apesar de todo mito que envolve o uso de Redes Neurais Artificiais,​ o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes,​ enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias,​ chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes,​ desde que satisfeitas algumas condições.
Linha 135: Linha 97:
   * {{projetos:​usingr-2.pdf|Using-R - parte 2}}   * {{projetos:​usingr-2.pdf|Using-R - parte 2}}
   * {{projetos:​obesidade:​rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}}   * {{projetos:​obesidade:​rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}}
 +  * {{projetos:​artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}}
  
 ===== Funções do R ===== ===== Funções do R =====
Linha 141: Linha 104:
 [[http://​cran.at.r-project.org/​src/​contrib/​Descriptions/​som.html |Pacote para Mapas Auto-Organizáveis ​ [[http://​cran.at.r-project.org/​src/​contrib/​Descriptions/​som.html |Pacote para Mapas Auto-Organizáveis ​
 (SOM) de Kohonen no R]] (SOM) de Kohonen no R]]
- 
  
 ===== Scripts do R ===== ===== Scripts do R =====
  
-<​code>​+<​code ​R>
 # pacotes necessarios # pacotes necessarios
 require(MASS) require(MASS)
 +
 require(tree)#​ arvores de decisao require(tree)#​ arvores de decisao
 +
 require(rpart)#​ arvores de decisao require(rpart)#​ arvores de decisao
  
 # Leitura do conjunto de dados # Leitura do conjunto de dados
 dados<​-read.csv2('​http://​www.leg.ufpr.br/​~joel/​dados/​hiipertensao.csv',​na.strings=""​) dados<​-read.csv2('​http://​www.leg.ufpr.br/​~joel/​dados/​hiipertensao.csv',​na.strings=""​)
- 
-# Re-expressão das variáveis 
-dados<​-transform(dados,​sexo=factor(sexo,​labels=c('​feminino','​masculino'​))) 
  
 </​code>​ </​code>​
Linha 319: Linha 280:
  
 ==== Criação das Bases de Desenvolvimento e de Validação ==== ==== Criação das Bases de Desenvolvimento e de Validação ====
-<​code>​+<​code ​R>
 <​echo=F,​results=hide>>​= <​echo=F,​results=hide>>​=
 ind<​-1:​989 # Criacao de vetor de indices ind<​-1:​989 # Criacao de vetor de indices
Linha 330: Linha 291:
  
  
-<​code>​+<​code ​R>
 dadostrein<​-read.table("​http://​www.leg.ufpr.br/​~joel/​dados/​dadostrein.txt",​h=T) dadostrein<​-read.table("​http://​www.leg.ufpr.br/​~joel/​dados/​dadostrein.txt",​h=T)
 dadostest<​-read.table("​http://​www.leg.ufpr.br/​~joel/​dados/​dadostest.txt",​h=T) dadostest<​-read.table("​http://​www.leg.ufpr.br/​~joel/​dados/​dadostest.txt",​h=T)
 </​code>​ </​code>​
- 
  
 ===== Bibliografias ===== ===== Bibliografias =====
Linha 354: Linha 314:
   address =      {},   address =      {},
   year =        {2002},   year =        {2002},
 +}
 +</​bibtex>​
 +
 +<​bibtex>​
 +@Book{hair+tatham+anderson+black:​2006,​
 +author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William},
 +title = {Multivariate Data Analysis},
 +note = {Tradu\c{c}\~{a}o:​ Adonai Schulup Sant'​Anna e Anselmo Chaves Neto},
 +pages = {},
 +publisher = {Bookman},
 +address = {Porto Alegre},
 +year = {2006},
 } }
 </​bibtex>​ </​bibtex>​
Linha 361: Linha 333:
 @article{ABC2422007,​ @article{ABC2422007,​
 author = {ABC da Saúde}, author = {ABC da Saúde},
-title = {{Hipertensão Arterial - Crise Hipertensiva}},+title = {Hipertensão Arterial - Crise Hipertensiva},​
 language = {pt}, language = {pt},
 note = {http://​www.abcdasaude.com.br/​artigo.php?​242},​ note = {http://​www.abcdasaude.com.br/​artigo.php?​242},​
Linha 423: Linha 395:
 } }
  
-@Book{HAIR2006,​ +
-author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William}, +
-title = {{Multivariate Data Analysis}},​ +
-note = {Tradu\c{c}\~{a}o:​ Adonai Schulup Sant'​Anna e Anselmo Chaves Neto}, +
-pages = {}, +
-publisher = {Bookman},​ +
-address = {Porto Alegre}, +
-year = {2006}, +
-}+
  
 @Book{HOFFMANN1977,​ @Book{HOFFMANN1977,​
Linha 647: Linha 611:
 @book{COSTANETO1977,​ @book{COSTANETO1977,​
 author = {Costa Neto, Pedro Luís de Oliveira}, author = {Costa Neto, Pedro Luís de Oliveira},
-title = {{Estatística}},+title = {Estatística},​
 note = {14ª reimpressão},​ note = {14ª reimpressão},​
 pages = {39 - 45}, pages = {39 - 45},
Linha 679: Linha 643:
    }    }
        
-@Manual{GIOLO2006,+@unpublished{GIOLO2006,
 author = {Giolo, Suely Ruiz}, author = {Giolo, Suely Ruiz},
-title = {{Análise de Dados Categóricos}}, +title = {Análise de Dados Categóricos},​ 
-note = {Apostila e Notas de Aula}, +note = {notas de aula para o Curso de Estatística da UFPR},
-pages = {}, +
-publisher = {UFPR},+
 address = {Curitiba}, address = {Curitiba},
 year = {2006}, year = {2006},
Linha 690: Linha 652:
  
  
-@Manual{GIOLO2007,+@unpublished{GIOLO2007,
 author = {Giolo, Suely Ruiz}, author = {Giolo, Suely Ruiz},
-title = {{Análise de Regressão}}, +title = {Análise de Regressão},​ 
-note = {Apostila e Notas de Aula},+note = {Notas de aula para o Curso de Estatística da UFPR},
 pages = {}, pages = {},
-publisher = {UFPR}, 
 address = {Curitiba}, address = {Curitiba},
 year = {2007}, year = {2007},
Linha 714: Linha 675:
 @Manual{OGLIARI2007,​ @Manual{OGLIARI2007,​
 author = {Ogliari, Paulo José}, author = {Ogliari, Paulo José},
-title = {{Regressão Logística}},+title = {Regressão Logística},​
 note = {Curso On-Line - http://​www.inf.ufsc.br/​~ogliari/​cursoderegressao.html},​ note = {Curso On-Line - http://​www.inf.ufsc.br/​~ogliari/​cursoderegressao.html},​
 pages = {}, pages = {},
Linha 735: Linha 696:
  
  
-===== Laboratórios de Estatística ===== 
- 
-=== == ==== Flaviane Peccin ==== == === 
- 
-Artigo: {{projetos:​artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}} 
- 
-Apresentação:​ 05/09/2007 - Grupo II 
- 
-Apresentação 2: 24/10/2007 - Grupo II 
- 
- 
-=== == ==== Christine Cardozo de Araujo ==== == === 
- 
-Artigo: Projeto Bambuí-MG 
- 
-Apresentação 1: 05/09/2007 - Grupo I 
  
-Apresentação 2: 24/10/2007 - Grupo I 
  
 ===== Modelos para Redação do TCC ===== ===== Modelos para Redação do TCC =====

QR Code
QR Code projetos:hipertensao (generated for current page)