Web Scraping

Curso prático sobre capturar, extrair e processar dados da web

Informações

Ementa

  1. Introdução ao Web Scraping.
    1. Motivação e funcionamento.
    2. Desafios e ética.
  2. Conexão e protolocos.
    1. URL com query strings.
    2. Cabeçalhos: cookies, referências, sessões e proxy.
    3. Formulários.
    4. Requisições simultâneas.
    5. Conteúdo binário e download.
  3. Manuseio de conteúdo em XML, HTML e JSON.
    1. Parsing de XML/HTML: DOM e SAX.
    2. Extração com CSS selector
    3. Extração com XPath.
    4. Parsing de JSON.
    5. Estruturação e armazenamento.
  4. Introdução a Web Driver.
  5. Automação de web scraping.

Software

Este Curso pode ser feito em Python ou em R visto que ambas as linguagens possuem recursos para web scraping. Abaixo tem-se a lista de principais módulos/pacotes utilizados.

Biografia

Walmes Zeviani é professor na UFPR desde 2010 onde leciona principalmente para o Curso de Bacharel em Estatística. É professor e vicecoordenador do Programa de Especialização em Data Science & Big Data da UFPR onde leciona conteúdos relacionados à análise exploratória em R e Python, machine learning e mineração de texto. Tem experiência com web scraping, manipulação e visualização de dados e análise de experimentos, temas sob os quais já ministrou cursos em congressos, instituições de ensino/pesquisa e empresas.

Referências bibliográficas

AYDIN, O. R web scraping quick start guide: Techniques and tools to crawl and scrape data from websites. Packt Publishing, 2018.

BROUCKE, S. VANDEN. Practical web scraping for data science: Best practices and examples with Python. Apress, 2018.

DANNEMAN, N.; HEIMANN, R. Social media mining with R. Packt Publishing, 2014.

HEYDT, M. Python web scraping cookbook: Over 90 proven recipes to get you scraping with python, microservices, docker, and aws. Packt Publishing, 2018.

JARMUL, K.; LAWSON, R. Python web scraping. Packt Publishing, 2017.

MAKHABEL, B.; MISHRA, P.; DANNEMAN, N.; HEIMANN, R. R: Mining spatial, text, web, and social media data. Packt Publishing, 2017.

MITCHELL, R. Web scraping with python: Collecting data from the modern web. 2nd ed. O’Reilly Media, 2019.

MUNZERT, S.; RUBBA, C.; MEIßNER, P.; NYHUIS, D. Automated data collection with R: A practical guide to web scraping and text mining. Wiley, 2015.

NAIR, V. Getting started with beautiful soup. Packt Publishing, 2014.

NOLAN, D.; LANG, D. XML and web technologies for data sciences with R. Springer New York, 2013.

RAVINDRAN, S.; GARG, V. Mastering social media mining with R. Packt Publishing, 2015.

25px