- As áreas práticas de mineração de texto.
- Como encontrar a área de um problema.
- Etapas do preprocessamento de texto.
- Representação espaço vetor.
- Ponderação de termos.
21 de fevereiro de 2019
Figura 1: Diagrama de vem com as áreas práticas de mineração de texto e disciplinas relacionadas. Fonte: MINER et al. (2012).
Figura 2: As 7 áreas práticas de mineração de texto e atividades relacionadas. Fonte: MINER et al. (2012).
Suposição importante
Documentos com sintaxe similar devem ter semântica similar.
Mesmos termos \(\rightarrow\) mesmos assuntos.
Usando a representação espaço vetor, considere os documentos a seguir.
meu | cachorro | está | na | sala | minha | bicicleta | suja | |
---|---|---|---|---|---|---|---|---|
Doc1 | 1 | 1 | 1 | 1 | 1 | |||
Doc1 | 1 | 1 | 1 | 1 | ||||
Doc3 | 1 | 1 | 1 | 1 |
MINER, G.; ELDER, J.; HILL, T. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Academic Press, 2012.