1 Ementa do Curso

1.1 Text Mining and Analytics

Text mining e text analytics são termos amplos que descrevem tecnologias para processar e analisar texto semiestruturado ou não estruturado. Essas tecnologias podem ser agrupadas em sete áreas práticas da mineração de texto (MINER et al., 2012). Tais tecnologias lidam com uma quantidade massiva de dados não estruturados e geralmente requerem alto poder de processamento computacional.

Hoje a informação em forma de texto digital é abundante. Estima-se que 80% da informação disponível no mundo está armazenada na forma de texto livre. No entanto, os problemas de mineração de texto são sempre peculiares em algum sentido, portanto, decidir quais e como aplicar os recursos disponíveis não é uma tarefa simples.

Aplicantes da mineração de texto na língua portuguesa encaram ainda mais desafios que os da língua inglesa pela menor quantidade de material didático e recursos de software disponíveis, como modelos treinados para classificação de partes do discurso e dicionários léxicos. Por outro lado, isso não deixa de ser uma grande oportunidade de inovar e gerar valor com a aplicação da mineração de texto em nosso idioma.

Neste curso serão desenvolvidas aplicações práticas a partir dos conceitos discutidos em sala sobre as diversas áreas da mineração de texto. Soluções construídas com a linguagem R irão exemplificar como desenvolver soluções para análise de sentimento, extração de entidade, classificação de documentos, modelagem preditiva, etc.

  1. Motivação, história e tendências.
  2. Medidas descritivas para texto.
    1. Noções de linguística.
    2. Índices de diversidade, abundância e riqueza.
  3. Abordagens para a mineração de texto.
    1. Bag of words (BOW) e NLP.
    2. Manipulação de cadeias de caracteres.
    3. Preprocessamento para BOW.
  4. Visualização em mineração de texto.
    1. Termos frequentes, associações e redes de relacionamento.
    2. Dendogramas, núvem de palavras.
  5. Análise de sentimentos.
    1. Aplicação de acervos léxicos.
    2. Métodos alternativos.
  6. Análise de agrupamento.
    1. Médidas de distância e similaridade.
    2. K-médias e variações.
  7. Modelagem de tópicos.
    1. Latent Dirichlet allocation.
    2. Abordagens text2vec.
  8. Modelagem preditiva apoiada em texto.
    1. Classificação e predição.
    2. Engenharia de características.
  9. Introdução ao processamento natural da linguagem.
    1. Rolutação de partes do discurso (POS tagging).
    2. Extração de entidades.

1.2 Web Scraping

Web Scrap é a ação ou conjunto de técnicas usadas para fazer consumo de informações de web sites. Também chamada de web harvest, com web scraping é possível capturar dados de texto e não textuais que estão abundantes na internet. A análise de dados da Web, seja de texto ou não, tem sido utilizada para otimizar diversas decisões de mercado que incluem: design de produto, análise de sentimento, monitoramento de doenças, modelagem preditiva, dentre várias outras. O aprendizado sobre web scraping neste curso é voltado para recolher dados da web para aplicação de análise de texto.

  1. Formato de dados Web: XML e JSON.
  2. Introdução ao XML.
    1. História e visão geral.
    2. Extrutura hierárquica.
  3. Decodificação de XML e HTML.
    1. Leitura de arquivos XML no R.
    2. Documento Object Model (DOM).
    3. Acessando nós em um DOM.
    4. Estrutura HTML.
    5. Leitura de HTML no R.
  4. Xpath.
    1. Sintaxe Xpath.
    2. Funções e operadores lógicos.
  5. Estratégias para extração de dados HTML.
  6. Automação de web scraping.
  7. Leitura de dados JSON.

2 Ensalamento

Horário Local
TER 20h45 - 22h10 Laboratório A ou B DEST
QUI 17h30 - 18h50 Multimídia DEST

3 Pré-requisitos para o Curso

É recomendado que os aplicantes tenham cursado as disciplinas abaixo para maior aproveitamento do curso.

  • Probabilidades A
  • Probabilidades B
  • Estatística Inferêncial
  • Estatística Computacional I
  • Estatística Computacional II
  • Machine Learning

4 Avaliações

Tipo de avaliação Quantidade Peso na nota final
Sabatinas semanais ~10 70%
Trabalho final 1 30%

Pelo menos 25% das piores notas das sabatinas serão eliminadas. As sabatinas não serão reaplicadas em caso de falta do aluno devido justamento a remoção de 25% das notas. O trabalho não terá reposição.

4.1 Moodle

Acesse https://moodle.c3sl.ufpr.br e crie uma conta para ter acesso às avaliações e materiais exclusivos.

As informações para registro no curso (chave de inscrição) e avaliações serão dadas em breve.

O endereço do Curso no Moodle é: https://moodle.c3sl.ufpr.br/course/view.php?id=220.

4.2 Entrega do trabalho

  • Disponibiliar o trabalho na forma de arquivo comprimido (tar.gz ou zip) no moodle.
    • Dropbox: compartilhar link público pelo dropbox.
    • Google Drive: compartilhar link público do Google Drive.
    • http://www.datafilehost.com/: Suba o arquivo para o site e compartilhe o link gerado.
    • NÃO ENVIAR O TRABALHO ANEXO POR EMAIL, APENAS A URL.

5 Bibliografia

5.1 Livros

Parte Referência
Text Mining KWARTLER (2017) *
KUMAR; PAUL (2016) *
SILGE; RODINSON (2017) **
MINER et al. (2012) **
FELDMAN; SANGER (2006) **
BIRD et al. (2009) **
Web Scraping NOLAN; LANG (2013) *
MUNZERT et al. (2015) **
DANNEMAN; HEIMANN (2014) **
MITCHELL (2015) **

* Referências principais. ** Referências complementares. Referência completa disponível na sessão referências.

5.2 Conteúdo na Web

Referências

BIRD, S.; KLEIN, E.; LOPER, E. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media, 2009.

DANNEMAN, N.; HEIMANN, R. Social Media Mining with R. Packt Publishing, 2014.

DOUGHERTY, D.; ROBBINS, A. sed & awk: UNIX Power Tools. O’Reilly Media, 1997.

FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2006.

HURWITZ, J.; NUGENT, A.; DR. HALPER, F.; KAUFMAN, M. Big data para leigos: ALTA BOOKS, 2016.

KUMAR, A.; PAUL, A. Mastering Text Mining with R. Packt Publishing, 2016.

KWARTLER, E. Text Mining in pratice with R. John Wiley & Sons, Limited, 2017.

MINER, G.; ELDER, J.; HILL, T. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Academic Press, 2012.

MITCHELL, R. Web Scraping with Python: Collecting Data from the Modern Web. O’Reilly Media, 2015.

MUNZERT, S.; RUBBA, C.; MEIßNER, P.; NYHUIS, D. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. Wiley, 2015.

NOLAN, D.; LANG, D. XML and Web Technologies for Data Sciences with R. Springer New York, 2013.

ROBBINS, A. Effective Awk Programming: Text Processing and Pattern Matching. O’Reilly Media, Incorporated, 2001.

SILGE, J.; RODINSON, D. Text Mining with R: A tidy approach. 1st ed. O’Reilly Media, 2017.