24 de Abril de 2018 · Data Science MeetUp
14 de Maio de 2018 · LEG/UFPR

Justificativa

  • No passado, as profissões/negócios correram para incorporar o uso dos computadores. Hoje o mesmo acontece com os dados.
  • Ciência de dados:
    • Data driven intensive projects.
    • Utilizam ML e STAT para análise de dados.

Justificativa

  • ML está em alta!
    • É a solução final para tudo que envolva dados?
    • As declarações são tendenciosas e pouco criteriosas?
    • As diferenças são super valorizadas?
  • Existem 4 áreas em data analytics.
    • Diferença em objetivo, valor e complexidade.
    • Como ML e STAT ocupam esse território?

Um entendimento incorreto das diferenças fatuais pode levar rapidamente a falsos julgamentos, péssimas escolhas e conclusões ruins.

Objetivo

  • Definir as 4 áreas de data analytics.
  • Definir ML e STAT.
  • Sobre ML e STAT, destacar:
    • As principais comunalidades.
    • As principais diferenças.
  • Posicionar ML e STAT no território de data analytics.
  • Dar recomendações para o data scientist.

Existem 3 tipos de pessoas

  1. ML e STAT são iguais! Usa a mesma matemática, estão nos mesmos livros, trabalham os dados.
  2. ML é completamente diferente e superior à STAT. Se você está preso à STAT, você é parte do passado.
  3. STAT é o pilar mestre e ML é apenas a versão glorificada, um nome gourmet usado por pessoas que não compreendem os conceitos fundamentais. ML é uma mania que vai passar.


Baseado em danielmiessler.com/blog/differences-similarities-machine-learning-statistics/.

Para fazer um exame justo

  • Particularizar para o contexto de Data Science & Big Data.
  • Considerar o emprego na análise dados para tomada de decisão.


As 4 áreas em
Análise de Dados

Visão geral

Fazem consumo de dados para extrair conhecimento.

  • Análise descritiva.
  • Análise diagnóstica.
  • Análise preditiva.
  • Análise prescritiva.
  • Para memorizar: D-D-P-P.

Análise descritiva

  • O que aconteceu/está acontecendo?
  • Compreender e descrever os dados crus.
  • Utiliza estatísticas/métricas simples.
  • Visualização de dados.
  • Feita em 80% do tempo.
  • Recursos para comunicação: data storytelling.
  • Auxilia no pré-processamento e curadoria.
  • Auxilia na construção/inspeção dos modelos.

Análise diagóstica

  • Por que aconteceu/está acontecendo?
  • Análise confirmatória, estatística inferencial, análise subscritiva.
  • Examinar causas de um fenômeno.
  • Controlar condições para isolar efeitos.
  • Determinar as variáveis relevantes.
  • Teste de hipótese, ANOVA, controle de qualidade, análise de sobreviência, análise dados categóricos, análise multivariada, etc.
  • Maior parte do Curso de Estatística.
  • Está ligado com probabilidade, amostragem e planejamento de experimentos.


Análise preditiva

  • O que irá acontecer?
  • Foco na previsão para coordenar ações.
  • Dos dados históricos e correntes para os futuros.
  • Menor interesse na interpretação.
  • Previsão de demanda, prevenção de evasão (churning), manutenção preventiva de equipamentos.
  • Tempo real: detecção de fraude, sistemas de recomendação.

Análise prescritiva

  • O que deve ser feito?
  • Determinar o melhor curso de ação, como reagir.
  • Baseado em o que, porque, e o que pode acontecer.
  • Recomendações baseadas em previsão ou diagnóstico.
  • Otimizar processos de negócios.
  • Pode envolver simulação com otimização.
  • Marketing direcionado, precificar planos de saúde, taxar consumo de energia.

Um comparativo até aqui

Descritiva Diagnóstica Preditiva Prescritiva
\(+\) usada \(-\) usada
retrospect. retrospect. prospect. prospect.
compreender examinar prever otimizar

Feito pelo autor.

Machine learning
e Estatística

Definições provocativas

Machine learning is essentially a form of applied statistics.

Machine learning is glorified statistics.

– The Elements of Statistical Learning

Machine learning is statistics scaled up to big data.

Machine learning is Statistics minus any checking of models and assumptions.

– Brian D. Ripley

Extraído de www.svds.com/machine-learning-vs-statistics/.

Definições formais frequentes

Machine learning is a field of computer science that uses statistical techniques to give computer systems the ability to "learn" (e.g., progressively improve performance on a specific task) with data, without being explicitly programmed.

Arthur L. Samuel (1959)

Machine learning is a type of AI that allows software applications to become more accurate in predicting outcomes without being explicitly programmed. The basic premise of machine learning is to build algorithms that can receive input data and use statistical analysis to predict an output value within an acceptable range.

Margaret Rouse

Definições formais frequentes

Statistics – as defined by the ASA – is the science of learning from data, and of measuring, controlling and communicating uncertainty.

Chris Wild

Statistics is using data and knowledge about randomness to condense, communicate, and contextualize information and provide insight into the setting from which the data came.

Jo Hardin

Statistics provides a coherent framework for thinking about random variation, and tools to partition data into signal and noise.

Hadley Wickham

Leitura recomendada: https://www.stat.uci.edu/what-is-statistics/.

Comunalidades

Ambos estão preocupados com a mesma questão: como aprender com os dados.

Larry Wasserman, Prof. em Carnegie Mellon.


Minha tentativa em resumir o objetivo comum:

A partir dos dados criar um modelo cujas quantidades desconhecidas são determinadas pela otimização de uma métrica e os resultados desse modelo são usado para tomar decisões.

Comunalidades

  • Consomem dados para produzirem resultados.
  • Tem construção e fundamentação matemática.
  • Tem uma função objetivo a ser otimizada.
  • Tem quantidades desconhecidas para serem determinadas.
  • Podem retornar resultados atraentes e/ou confusos quando usados incorretamente.
  • Sofrem do GIGO: garbage in, garbage out.
  • Estão sob o guarda-chuva prático de Data Science e teórico de Statistical Learning.

Dicionário de termos

Estatística Machine learning
Variável resposta Variável alvo
Variáveis preditoras Características
Registro, caso Objeto, instância
Modelo Rede, grafos, algorítmo
Parâmetro Peso
Ajustar Aprender, treinar
Regressão/classificação Aprendizado supervisionado
Agrupamento, estimação de densidade Aprendizado não supervisionado
Capacidade preditiva Generalização
Função objetivo (verossimilhança) Função custo


Baseado e estendido de https://brenocon.com/blog/2008/12/statistics-vs-machine-learning-fight/.

Principais diferenças

  • História.
  • Abordagem básica.
  • Formulação.
  • Nível de suposição.
  • Volume de dados.
  • Esforço humano.

Origem histórica e área da Ciência

Estatística

  1. Área dentro da matemática.
  2. Tem uma história de séculos.
  3. Atitude mais conservadora: soluções justificáveis.
  4. Contribuições veiculadas em periódicos científicos.
  5. Sem conhecimento sobre competições nessa área.
  6. Da matemática: cálculo, álgebra, otimização, probabilidade, etc.

Machine learning

  1. Área dentro de IA na Ciência da Computação.
  2. Tem uma história de algumas décadas (>= 1950).
  3. Atitude mais liberal: soluções que funcionem.
  4. Contribuições veiculadas em conferências.
  5. Existem competições com alta premiação de ML (i.e. kaggle).
  6. Da matemática: cálculo, álgebra, otimização, geometria, etc.

Abordagem básica

Estatística

  1. Prioriza inferência.
  2. Formulação meticulosa.
  3. Modelos baseados em métricas, geralmente interpretáveis.
  4. Especifica um modelo que converte os dados em um número reduzido de estatísticas.
  5. Foca na interpretação do fenômeno por meio do modelo.
  6. Lógica dedutiva: muito pré-conhecimento e poucos dados.

Machine learning

  1. Prioriza predição.
  2. No espírito fail fast, move quickly.
  3. Modelos baseados em algorítmos.
  4. Cria uma abstração dos dados com objetivo funcional de predição.
  5. Facilmente pode ter mais parâmetros que dados.
  6. Lógica indutiva: pouco pré-conhecimento e muitos dados.

Formulação

Estatística

  1. Determinar relação entre variáveis.
  2. Sem problemas e típico em assumir um conjunto de suposições.
  3. Os modelos podem ser de rígidos a flexíveis.
  4. No geral, quanto mais flexível, menos interpretável.

Machine learning

  1. Fazer previsão para novos casos.
  2. Não possui muitas suposições, mas possui.
  3. Os modelos são bem flexíveis, ótimos aproximadores.
  4. Em geral, pouco interpretáveis.

Suposições

Estatística

  1. Baseada em suposições sobre o processo gerador dos dados.
  2. Construção e modelagem estocástica.
  3. Endereça questões para o processo.
  4. Os dados são apenas uma realização ruidosa do processo.
  5. Ou seja, modela o processo.
  6. O modelo vem primeiro.

Machine learning

  1. Pouco orientada a suposições sobre o processo, mas algumas suposições existem.
  2. Construção e modelagem algorítmica.
  3. Endereça questões para os dados.
  4. O processo gerador é secundário.
  5. Ou seja, modela os dados.
  6. Os dados vem primeiro.

Suposições

Estatística

  1. Dados inspiram a formalização do processo e estimam o modelo.
  2. Preocupação com a validade das suposições: inúmeras formas de verificação.
  3. As suposições funcionam como aumentação de dados.
  4. Resultados = 0.5 (propriedades do modelo + suposições) + 0.5 dados.

Machine learning

  1. Dados usados para escolher e treinar o algorítmo.
  2. Preocupação com under/over fitting: desempenho no conjunto de teste.
  3. Vem de um contexto com abundância de dados. Small data, no ML.
  4. Resultados = 0.25 propriedades do algorítmo + 0.75 dados.

Exemplos de suposições em Estatística

  • Modelos de regressão: independência, homocedasticidade, normalidade, etc.
  • Dados de contagem:
    • Poisson – processo de Poisson – função de risco constante – média = variância
    • Gamma count – função não constante.
    • Bionomial negativa, COM-Poisson, Tweedie, etc.
  • Perda de observações: MCAR, MAR, MNAR, etc.
  • Estrutura de correlação espacial: função de decaimento, isotropia, estacionariedade, tendência.
  • Tipos de dados contínuos: circulares, composicionais, censurados, limitados, etc.
  • Processo de coleta: um estrato, multi-nível, etc.
  • Amostragem: probabilística, não probabilística.

Algumas vantagens do ML

ML biggest advatage is self improvement based on exposure to data.

– Daniel Miessler

Será?


Baseado no cenário colocado por Pedro Domingos em The Master Algorthm.

Algumas vantagens do ML

  • Formas simples e genéricas de teste de performance emprestadas da estatística: reamostragem.
  • Métricas de desempenho de fácil compreensão.
  • A prova do modelo é o desempenho do conjunto de teste.
  • Pode-se trocar de algorítimo em uma análise com menor esforço de adequação.
  • Pode-se combiná-los de várias formas: ensembles.
  • Pode-se acessar a importância das variáveis para redução de escopo na análise disgnóstica/prescritiva.

Preocupações com ML na pesquisa biomédica

  • ML tem sido usado em pesquisa genômica, genômica funcional, proteômica, biomedicina, etc.
  • Preocupações são:
    • Como fazer e justificar a escolha do algorítimo.
    • Como fazer o tuning dos parâmetros.
    • Como assegurar transportabilidade computacional.
    • Como assegurar reprodutibilidade.


Boulesteix, A. L., Schmid, M. (2014). Machine learning versus statistical modeling. Biometrical Journal, 56(4), 588–593. https://doi.org/10.1002/bimj.201300226

Escolas de pensamento

Estatísticos quanto a inferência e níveis de suposição:

  • Frequentistas.
  • Verossimilhancistas.
  • Bayesianos.

Machine learners quanto ao aprendizado segundo Pedro Domingos:

  • Simbolistas.
  • Analogistas.
  • Bayesianos.
  • Conexionistas.
  • Evolucionistas.

Volume de dados

Estatística

  1. Geralmente em baixa/intermediária dimensão (\(n\)).
  2. Orientado a poucas variáveis (\(p\)).
  3. Complicações quando \(p >> n\).
  4. Mais dificilmente escalável, principalmente quando registros são dependentes/agrupados.

Machine learning

  1. Preferencialmente em alta dimensão (\(n\)).
  2. Acomoda muitas variáveis (\(p\)).
  3. Sem problemas quando \(p >> n\).
  4. Foco em performance computacional, assume observações IID.

Esforço humano

Estatística

  1. Mais esforço humano.
  2. Especificação justificável de cada componente do modelo.
  3. Conhecimento prévio das relações entre variáveis, propriedades e limitações do modelo
  4. Verificação dos pressupostos e medidas de diagnóstico.
  5. É uma profissão com gradução de 4,5 anos.
  6. Esforço: especificar, pré-processar, ajustar e interpretar.

Machine learning

  1. Menos esforço humano.
  2. A máquina avalia os padrões, livre de suposições, com aproximador flexível.
  3. Conhecimento das propriedades e limitações dos algorítmos.
  4. Avaliação e acompanhamento das métricas de desempenho.
  5. Uma ou duas disciplina em cursos de Ciência da Computação.
  6. Esforço: escolhas, pré-processar, tunar e monitorar.

Território

Feito pelo autor.

Conclusões e
recomendações

Sobre ML e STAT

  • ML e STAT são dois jogos praticados no mesmo tabuleiro e com as mesmas peças, porém com estratégias e objetivos diferentes.
  • São gêmeos, então têm o mesmo DNA e a mesma família mas se vestem, tem amigos, hábitos, preferências e hobbies diferentes.


  1. São rivais? A rivalidade está nas pessoas.
  2. São redudantes? Compartilham os fundamentos e a matéria-prima.
  3. São complementares? Absolutamente! Ambos fornecem contribuições à área de Data Science.


Analogias feitas em svds.com/machine-learning-vs-statistics/ e www.sharpsightlabs.com/blog/difference-machine-learning-statistics-data-mining/.

Recomendações

  • Problemas em Data Science requerem conhecimento das duas áreas.
  • Conforme Wasserman, se os membros das comunidades STAT e ML começarem a se comunicar, as fronteiras irão desaparecer.
  • Técnicas para análise de dados estão disponíveis (R, Python, etc).
  • Mas é necessário conhecer os fundamentos, propriedades e limitações de ambas para escolher e aproveitar o melhor de cada área em cada situação.

E você?

  • Concorda com essas colocações?
  • Discorda delas?
  • Eu quero saber a sua opinião.

Referências

Referências em ordem alfabética da URL. Acesso entre 20 e 23/04/2018.

  1. analyticsindiamag.com/machine-learning-different-statistics/.
  2. blog.galvanize.com/why-a-mathematician-statistician-machine-learner-solve-the-same-problem-differently-2/.
  3. brenocon.com/blog/2008/12/statistics-vs-machine-learning-fight/.
  4. danielmiessler.com/blog/differences-similarities-machine-learning-statistics/.
  5. frontier7.com/the-battle-between-machine-learning-and-statistics-over-consumer-insights/.
  6. healthcare.ai/machine-learning-versus-statistics-use/.
  7. onlinelibrary.wiley.com/doi/pdf/10.1002/bimj.201300226.
  8. stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning.
  9. svds.com/machine-learning-vs-statistics/.
  10. www.analyticsvidhya.com/blog/2015/07/difference-machine-learning-statistical-modeling/.
  11. www.bmc.com/blogs/machine-learning-data-science-artificial-intelligence-deep-learning-and-statistics/.
  12. www.cs.waikato.ac.nz/ml/publications/1995/Cunningham95-ML-Stats.pdf.
  13. www.datasciencecentral.com/profiles/blogs/machine-learning-vs-traditional-statistics-different-philosophi-1.
  14. www.dezyre.com/article/data-mining-vs-statistics-vs-machine-learning/349.
  15. www.edvancer.in/machine-learning-vs-statistics/.
  16. www.goldstrikedata.com/articles/2016/12/13/analytics-explained-the-tives.
  17. www.infogix.com/blog/machine-learning-vs-statistical-modeling-the-real-difference/.
  18. www.kdnuggets.com/2017/07/4-types-data-analytics.html.
  19. www.linkedin.com/pulse/difference-between-statistical-modeling-machine-i-see-schabenberger.
  20. www.sharpsightlabs.com/blog/difference-machine-learning-statistics-data-mining/.
  21. www.simplilearn.com/data-mining-vs-statistics-article.
  22. www.techleer.com/articles/232-predicting-through-data-machine-learning-vs-statistical-modeling/.