Machine Learning e Estatística

24 de Abril de 2018 · Data Science MeetUp
14 de Maio de 2018 · LEG/UFPR

Justificativa

No passado, as profissões/negócios correram para incorporar o uso dos computadores. Hoje o mesmo acontece com os dados.
Ciência de dados:
- Data driven intensive projects.
- Utilizam ML e STAT para análise de dados.

Justificativa

ML está em alta!
- É a solução final para tudo que envolva dados?
- As declarações são tendenciosas e pouco criteriosas?
- As diferenças são super valorizadas?
Existem 4 áreas em data analytics.
- Diferença em objetivo, valor e complexidade.
- Como ML e STAT ocupam esse território?

Um entendimento incorreto das diferenças fatuais pode levar rapidamente a falsos julgamentos, péssimas escolhas e conclusões ruins.

Objetivo

Definir as 4 áreas de data analytics.
Definir ML e STAT.
Sobre ML e STAT, destacar:
- As principais comunalidades.
- As principais diferenças.
Posicionar ML e STAT no território de data analytics.
Dar recomendações para o data scientist.

Existem 3 tipos de pessoas

ML e STAT são iguais! Usa a mesma matemática, estão nos mesmos livros, trabalham os dados.
ML é completamente diferente e superior à STAT. Se você está preso à STAT, você é parte do passado.
STAT é o pilar mestre e ML é apenas a versão glorificada, um nome gourmet usado por pessoas que não compreendem os conceitos fundamentais. ML é uma mania que vai passar.

Baseado em danielmiessler.com/blog/differences-similarities-machine-learning-statistics/.

Para fazer um exame justo

Particularizar para o contexto de Data Science & Big Data.
Considerar o emprego na análise dados para tomada de decisão.

As 4 áreas em
Análise de Dados

Visão geral

Fazem consumo de dados para extrair conhecimento.

Análise descritiva.
Análise diagnóstica.
Análise preditiva.
Análise prescritiva.
Para memorizar: D-D-P-P.

Análise descritiva

O que aconteceu/está acontecendo?
Compreender e descrever os dados crus.
Utiliza estatísticas/métricas simples.
Visualização de dados.
Feita em 80% do tempo.
Recursos para comunicação: data storytelling.
Auxilia no pré-processamento e curadoria.
Auxilia na construção/inspeção dos modelos.

Análise diagóstica

Por que aconteceu/está acontecendo?
Análise confirmatória, estatística inferencial, análise subscritiva.
Examinar causas de um fenômeno.
Controlar condições para isolar efeitos.
Determinar as variáveis relevantes.
Teste de hipótese, ANOVA, controle de qualidade, análise de sobreviência, análise dados categóricos, análise multivariada, etc.

Maior parte do Curso de Estatística.
Está ligado com probabilidade, amostragem e planejamento de experimentos.

Análise preditiva

O que irá acontecer?
Foco na previsão para coordenar ações.
Dos dados históricos e correntes para os futuros.
Menor interesse na interpretação.
Previsão de demanda, prevenção de evasão (churning), manutenção preventiva de equipamentos.
Tempo real: detecção de fraude, sistemas de recomendação.

Análise prescritiva

O que deve ser feito?
Determinar o melhor curso de ação, como reagir.
Baseado em o que, porque, e o que pode acontecer.
Recomendações baseadas em previsão ou diagnóstico.
Otimizar processos de negócios.
Pode envolver simulação com otimização.
Marketing direcionado, precificar planos de saúde, taxar consumo de energia.

Um comparativo até aqui

Descritiva	Diagnóstica	Preditiva	Prescritiva
\(+\) usada			\(-\) usada
retrospect.	retrospect.	prospect.	prospect.
compreender	examinar	prever	otimizar

Baseado em www.kdnuggets.com/2017/07/4-types-data-analytics.html.

Feito pelo autor.

Machine learning
e Estatística

Definições provocativas

Machine learning is essentially a form of applied statistics.

Machine learning is glorified statistics.

– The Elements of Statistical Learning

Machine learning is statistics scaled up to big data.

Machine learning is Statistics minus any checking of models and assumptions.

– Brian D. Ripley

Extraído de www.svds.com/machine-learning-vs-statistics/.

Definições formais frequentes

Machine learning is a field of computer science that uses statistical techniques to give computer systems the ability to "learn" (e.g., progressively improve performance on a specific task) with data, without being explicitly programmed.

– Arthur L. Samuel (1959)

Machine learning is a type of AI that allows software applications to become more accurate in predicting outcomes without being explicitly programmed. The basic premise of machine learning is to build algorithms that can receive input data and use statistical analysis to predict an output value within an acceptable range.

– Margaret Rouse

Definições formais frequentes

Statistics – as defined by the ASA – is the science of learning from data, and of measuring, controlling and communicating uncertainty.

Chris Wild

Statistics is using data and knowledge about randomness to condense, communicate, and contextualize information and provide insight into the setting from which the data came.

Jo Hardin

Statistics provides a coherent framework for thinking about random variation, and tools to partition data into signal and noise.

Hadley Wickham

Leitura recomendada: https://www.stat.uci.edu/what-is-statistics/.

Comunalidades

Ambos estão preocupados com a mesma questão: como aprender com os dados.

– Larry Wasserman, Prof. em Carnegie Mellon.

Minha tentativa em resumir o objetivo comum:

A partir dos dados criar um modelo cujas quantidades desconhecidas são determinadas pela otimização de uma métrica e os resultados desse modelo são usado para tomar decisões.

Comunalidades

Consomem dados para produzirem resultados.
Tem construção e fundamentação matemática.
Tem uma função objetivo a ser otimizada.
Tem quantidades desconhecidas para serem determinadas.
Podem retornar resultados atraentes e/ou confusos quando usados incorretamente.
Sofrem do GIGO: garbage in, garbage out.
Estão sob o guarda-chuva prático de Data Science e teórico de Statistical Learning.

Dicionário de termos

Estatística	Machine learning
Variável resposta	Variável alvo
Variáveis preditoras	Características
Registro, caso	Objeto, instância
Modelo	Rede, grafos, algorítmo
Parâmetro	Peso
Ajustar	Aprender, treinar
Regressão/classificação	Aprendizado supervisionado
Agrupamento, estimação de densidade	Aprendizado não supervisionado
Capacidade preditiva	Generalização
Função objetivo (verossimilhança)	Função custo

Baseado e estendido de https://brenocon.com/blog/2008/12/statistics-vs-machine-learning-fight/.

Principais diferenças

História.
Abordagem básica.
Formulação.
Nível de suposição.
Volume de dados.
Esforço humano.

Origem histórica e área da Ciência

Estatística

Área dentro da matemática.
Tem uma história de séculos.
Atitude mais conservadora: soluções justificáveis.
Contribuições veiculadas em periódicos científicos.
Sem conhecimento sobre competições nessa área.
Da matemática: cálculo, álgebra, otimização, probabilidade, etc.

Machine learning

Área dentro de IA na Ciência da Computação.
Tem uma história de algumas décadas (>= 1950).
Atitude mais liberal: soluções que funcionem.
Contribuições veiculadas em conferências.
Existem competições com alta premiação de ML (i.e. kaggle).
Da matemática: cálculo, álgebra, otimização, geometria, etc.

Abordagem básica

Estatística

Prioriza inferência.
Formulação meticulosa.
Modelos baseados em métricas, geralmente interpretáveis.
Especifica um modelo que converte os dados em um número reduzido de estatísticas.
Foca na interpretação do fenômeno por meio do modelo.
Lógica dedutiva: muito pré-conhecimento e poucos dados.

Machine learning

Prioriza predição.
No espírito fail fast, move quickly.
Modelos baseados em algorítmos.
Cria uma abstração dos dados com objetivo funcional de predição.
Facilmente pode ter mais parâmetros que dados.
Lógica indutiva: pouco pré-conhecimento e muitos dados.

Formulação

Estatística

Determinar relação entre variáveis.
Sem problemas e típico em assumir um conjunto de suposições.
Os modelos podem ser de rígidos a flexíveis.
No geral, quanto mais flexível, menos interpretável.

Machine learning

Fazer previsão para novos casos.
Não possui muitas suposições, mas possui.
Os modelos são bem flexíveis, ótimos aproximadores.
Em geral, pouco interpretáveis.

Adaptado do livro The Elements of Statistical Learning.

Suposições

Estatística

Baseada em suposições sobre o processo gerador dos dados.
Construção e modelagem estocástica.
Endereça questões para o processo.
Os dados são apenas uma realização ruidosa do processo.
Ou seja, modela o processo.
O modelo vem primeiro.

Machine learning

Pouco orientada a suposições sobre o processo, mas algumas suposições existem.
Construção e modelagem algorítmica.
Endereça questões para os dados.
O processo gerador é secundário.
Ou seja, modela os dados.
Os dados vem primeiro.

Suposições

Estatística

Dados inspiram a formalização do processo e estimam o modelo.
Preocupação com a validade das suposições: inúmeras formas de verificação.
As suposições funcionam como aumentação de dados.
Resultados = 0.5 (propriedades do modelo + suposições) + 0.5 dados.

Machine learning

Dados usados para escolher e treinar o algorítmo.
Preocupação com under/over fitting: desempenho no conjunto de teste.
Vem de um contexto com abundância de dados. Small data, no ML.
Resultados = 0.25 propriedades do algorítmo + 0.75 dados.

Exemplos de suposições em Estatística

Modelos de regressão: independência, homocedasticidade, normalidade, etc.
Dados de contagem:
- Poisson – processo de Poisson – função de risco constante – média = variância
- Gamma count – função não constante.
- Bionomial negativa, COM-Poisson, Tweedie, etc.
Perda de observações: MCAR, MAR, MNAR, etc.
Estrutura de correlação espacial: função de decaimento, isotropia, estacionariedade, tendência.
Tipos de dados contínuos: circulares, composicionais, censurados, limitados, etc.
Processo de coleta: um estrato, multi-nível, etc.
Amostragem: probabilística, não probabilística.

Algumas vantagens do ML

ML biggest advatage is self improvement based on exposure to data.

– Daniel Miessler

Será?

Baseado no cenário colocado por Pedro Domingos em The Master Algorthm.

Algumas vantagens do ML

Formas simples e genéricas de teste de performance emprestadas da estatística: reamostragem.
Métricas de desempenho de fácil compreensão.
A prova do modelo é o desempenho do conjunto de teste.
Pode-se trocar de algorítimo em uma análise com menor esforço de adequação.
Pode-se combiná-los de várias formas: ensembles.
Pode-se acessar a importância das variáveis para redução de escopo na análise disgnóstica/prescritiva.

Preocupações com ML na pesquisa biomédica

ML tem sido usado em pesquisa genômica, genômica funcional, proteômica, biomedicina, etc.
Preocupações são:
- Como fazer e justificar a escolha do algorítimo.
- Como fazer o tuning dos parâmetros.
- Como assegurar transportabilidade computacional.
- Como assegurar reprodutibilidade.

Boulesteix, A. L., Schmid, M. (2014). Machine learning versus statistical modeling. Biometrical Journal, 56(4), 588–593. https://doi.org/10.1002/bimj.201300226

Escolas de pensamento

Estatísticos quanto a inferência e níveis de suposição:

Frequentistas.
Verossimilhancistas.
Bayesianos.

Machine learners quanto ao aprendizado segundo Pedro Domingos:

Simbolistas.
Analogistas.
Bayesianos.
Conexionistas.
Evolucionistas.

Extraido do livro The Master Algorithm do Prof. Pedro Domingos.

Volume de dados

Estatística

Geralmente em baixa/intermediária dimensão (\(n\)).
Orientado a poucas variáveis (\(p\)).
Complicações quando \(p >> n\).
Mais dificilmente escalável, principalmente quando registros são dependentes/agrupados.

Machine learning

Preferencialmente em alta dimensão (\(n\)).
Acomoda muitas variáveis (\(p\)).
Sem problemas quando \(p >> n\).
Foco em performance computacional, assume observações IID.

Esforço humano

Estatística

Mais esforço humano.
Especificação justificável de cada componente do modelo.
Conhecimento prévio das relações entre variáveis, propriedades e limitações do modelo
Verificação dos pressupostos e medidas de diagnóstico.
É uma profissão com gradução de 4,5 anos.
Esforço: especificar, pré-processar, ajustar e interpretar.

Machine learning

Menos esforço humano.
A máquina avalia os padrões, livre de suposições, com aproximador flexível.
Conhecimento das propriedades e limitações dos algorítmos.
Avaliação e acompanhamento das métricas de desempenho.
Uma ou duas disciplina em cursos de Ciência da Computação.
Esforço: escolhas, pré-processar, tunar e monitorar.

Território

Feito pelo autor.

Conclusões e
recomendações

Sobre ML e STAT

ML e STAT são dois jogos praticados no mesmo tabuleiro e com as mesmas peças, porém com estratégias e objetivos diferentes.
São gêmeos, então têm o mesmo DNA e a mesma família mas se vestem, tem amigos, hábitos, preferências e hobbies diferentes.

São rivais? A rivalidade está nas pessoas.
São redudantes? Compartilham os fundamentos e a matéria-prima.
São complementares? Absolutamente! Ambos fornecem contribuições à área de Data Science.

Analogias feitas em svds.com/machine-learning-vs-statistics/ e www.sharpsightlabs.com/blog/difference-machine-learning-statistics-data-mining/.

Recomendações

Problemas em Data Science requerem conhecimento das duas áreas.
Conforme Wasserman, se os membros das comunidades STAT e ML começarem a se comunicar, as fronteiras irão desaparecer.
Técnicas para análise de dados estão disponíveis (R, Python, etc).
Mas é necessário conhecer os fundamentos, propriedades e limitações de ambas para escolher e aproveitar o melhor de cada área em cada situação.

E você?

Concorda com essas colocações?
Discorda delas?
Eu quero saber a sua opinião.

Referências

Referências em ordem alfabética da URL. Acesso entre 20 e 23/04/2018.

Venha participar do R Day!

rday.leg.ufpr.br

Obrigado!

Walmes Zeviani
walmes@ufpr.br
walmes
@walmeszeviani
Laboratório de Estatística e Geoinformação (LEG)
+55 41 3361 3573

Justificativa

Justificativa

Objetivo

Existem 3 tipos de pessoas

Para fazer um exame justo

As 4 áreas emAnálise de Dados

Visão geral

Análise descritiva

Análise diagóstica

Análise preditiva

Análise prescritiva

Um comparativo até aqui

Machine learninge Estatística

Definições provocativas

Definições formais frequentes

Definições formais frequentes

Comunalidades

Comunalidades

Dicionário de termos

Principais diferenças

Origem histórica e área da Ciência

Abordagem básica

Formulação

Suposições

Suposições

Exemplos de suposições em Estatística

Algumas vantagens do ML

Algumas vantagens do ML

Preocupações com ML na pesquisa biomédica

Escolas de pensamento

Volume de dados

Esforço humano

Território

Conclusões erecomendações

Sobre ML e STAT

Recomendações

E você?

Referências

As 4 áreas em
Análise de Dados

Machine learning
e Estatística

Conclusões e
recomendações