Mineração de Texto
|
Text mining e text analytics são termos amplos que descrevem tecnologias para processar e analisar texto semiestruturado ou não estruturado. Essas tecnologias podem ser agrupadas em sete áreas práticas da mineração de texto (MINER et al., 2012). Tais tecnologias lidam com uma quantidade massiva de dados não estruturados e geralmente requerem alto poder de processamento computacional.
Hoje a informação em forma de texto digital é abundante. Estima-se que 80% da informação disponível no mundo está armazenada na forma de texto livre. No entanto, os problemas de mineração de texto são sempre peculiares em algum sentido, portanto, decidir quais e como aplicar os recursos disponíveis não é uma tarefa simples.
Aplicantes da mineração de texto na língua portuguesa encaram ainda mais desafios que os da língua inglesa pela menor quantidade de material didático e recursos de software disponíveis, como modelos treinados para classificação de partes do discurso e dicionários léxicos. Por outro lado, isso não deixa de ser uma grande oportunidade de inovar e gerar valor com a aplicação da mineração de texto em nosso idioma.
Neste curso serão desenvolvidas aplicações práticas a partir dos conceitos discutidos em sala sobre as diversas áreas da mineração de texto. Soluções construídas com a linguagem R irão exemplificar como desenvolver soluções para análise de sentimento, extração de entidade, classificação de documentos, modelagem preditiva, etc.
Web Scrap é a ação ou conjunto de técnicas usadas para fazer consumo de informações de web sites. Também chamada de web harvest, com web scraping é possível capturar dados de texto e não textuais que estão abundantes na internet. A análise de dados da Web, seja de texto ou não, tem sido utilizada para otimizar diversas decisões de mercado que incluem: design de produto, análise de sentimento, monitoramento de doenças, modelagem preditiva, dentre várias outras. O aprendizado sobre web scraping neste curso é voltado para recolher dados da web para aplicação de análise de texto.
Horário | Local |
---|---|
TER 20h45 - 22h10 | Laboratório A ou B DEST |
QUI 17h30 - 18h50 | Multimídia DEST |
É recomendado que os aplicantes tenham cursado as disciplinas abaixo para maior aproveitamento do curso.
Tipo de avaliação | Quantidade | Peso na nota final |
---|---|---|
Sabatinas semanais | ~10 | 70% |
Trabalho final | 1 | 30% |
Pelo menos 25% das piores notas das sabatinas serão eliminadas. As sabatinas não serão reaplicadas em caso de falta do aluno devido justamento a remoção de 25% das notas. O trabalho não terá reposição.
Acesse https://moodle.c3sl.ufpr.br e crie uma conta para ter acesso às avaliações e materiais exclusivos.
As informações para registro no curso (chave de inscrição) e avaliações serão dadas em breve.
O endereço do Curso no Moodle é: https://moodle.c3sl.ufpr.br/course/view.php?id=220.
Parte | Referência |
---|---|
Text Mining | KWARTLER (2017) * |
KUMAR; PAUL (2016) * | |
SILGE; RODINSON (2017) ** | |
MINER et al. (2012) ** | |
FELDMAN; SANGER (2006) ** | |
BIRD et al. (2009) ** | |
Web Scraping | NOLAN; LANG (2013) * |
MUNZERT et al. (2015) ** | |
DANNEMAN; HEIMANN (2014) ** | |
MITCHELL (2015) ** |
* Referências principais. ** Referências complementares. Referência completa disponível na sessão referências.
tm
, openNLP
and topicmodels
, Ted Kwartler: http://www.slideshare.net/odsc/tedkwartlerworkshop1.BIRD, S.; KLEIN, E.; LOPER, E. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media, 2009.
DOUGHERTY, D.; ROBBINS, A. sed & awk: UNIX Power Tools. O’Reilly Media, 1997.
FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2006.
HURWITZ, J.; NUGENT, A.; DR. HALPER, F.; KAUFMAN, M. Big data para leigos: ALTA BOOKS, 2016.
KUMAR, A.; PAUL, A. Mastering Text Mining with R. Packt Publishing, 2016.
KWARTLER, E. Text Mining in pratice with R. John Wiley & Sons, Limited, 2017.
MINER, G.; ELDER, J.; HILL, T. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Academic Press, 2012.
MITCHELL, R. Web Scraping with Python: Collecting Data from the Modern Web. O’Reilly Media, 2015.
MUNZERT, S.; RUBBA, C.; MEIßNER, P.; NYHUIS, D. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. Wiley, 2015.
NOLAN, D.; LANG, D. XML and Web Technologies for Data Sciences with R. Springer New York, 2013.
ROBBINS, A. Effective Awk Programming: Text Processing and Pattern Matching. O’Reilly Media, Incorporated, 2001.
SILGE, J.; RODINSON, D. Text Mining with R: A tidy approach. 1st ed. O’Reilly Media, 2017.
Mineração de Texto |
leg.ufpr.br/~walmes/ensino/mintex/ |