top of page
HO - 350: Introdução à Ciência de Dados para Ciências Sociais e Humanas (ICD)
Descrição

É inegável que a disponibilidade de dados em todas as áreas de conhecimento é cada vez maior quanto ao seu volume, a sua velocidade de divulgação e a sua diversidade, no seu tipo e nas fontes. Nesse cenário, pesquisas multidisciplinares e abordagens data driven vêm a contribuir nas análises empíricas em diversas áreas de conhecimento. Urge por tanto, conhecimento sobre analítica de dados, visando a extração de informação e o desenvolvimento de modelos adequados como instrumentos de suporte para os tomadores de decisão.

 

Objetivos

A disciplina apresenta os fundamentos da Ciência de dados, visando apresentar a base para o estudo de técnicas mais complexas no campo do Aprendizado de Máquina.

 

Pré-requisitos

Nenhum. Aulas introdutórias sobre Álgebra Linear serão disponibilizadas para aqueles que precisem dessa base. As aulas introdutórias de Estatística e R serão ministradas nos primeiros encontros.

 

Programa
Parte 1: A Ciência de Dados e o trabalho dos cientistas

Introdução. Definindo o que é essa ciência, o que os cientistas de dados fazem e quais ferramentas e algoritmos eles usam no dia a dia. Apresentação da disciplina e o contexto geral da área.

 

Parte 2: Introdução ao R

Aulas introdutórias de R, uma das linguagens mais usadas em Ciência de Dados visando o conhecimento básico para o acompanhamento da disciplina. Contudo, as atividades podem ser desenvolvidas também em Python, caso o aluno tenha experiência com essa linguagem e assim o prefira.

 

Parte 3: Estatística descritiva

Revisaremos os principais conceitos e ferramentas estatísticas para uma análise exploratória de dados e na validação de modelos das próximas seções.

  • Dados: tipos, tipos de variáveis (qualitativas, quantitativas)

  • Análise gráfica

  • População e amostra, viés

  • Medidas de posição, TLC

  • Medidas de dispersão

  • Medidas de associação: correlação e covariância

  • Distribuições de dados: uniforme, Bernoulli, Binomial, Poisson, Normal, Exponencial, t-Student, Qui-quadrado, F

  • Teste de hipótese (introdução)

  • Teste z, t, F (ANOVA), teste qui-quadrado

 

Parte 4: Algoritmos não supervisionados

Quantas vezes tivemos que identificar padrões ou grupos? Ou identificar variáveis (mesmo que latentes) relevantes para explicar os padrões observados? Entraremos na lógica dos algoritmos de agrupamento mais tradicionais na Ciência de Dados, identificando as condições necessárias para o uso de cada técnica.

  • Cluster hierárquico – dendograma, algoritmo aglomerativo, medidas de distância (Single Linkage, Complete Linkage, Avarage Linkage, Centróide, Ward)

  • Cluster não hierárquico - K-means

  • Análise de componentes principais - PCA

  • Análise de correspondência - Anacor e ACM

  • Agrupamento de dados mistos

 

Parte 5: Algoritmos supervisionados

Esmiuçaremos a teoria por trás dos algoritmos supervisionados mais tradicionais DE agrupamento e classificação na Ciência de Dados e os aplicaremos em bases de dados diversas.

  • K-vizinhos mais próximos - KNN (RL não se inclui por se ver em Econometria)

  • Modelos de árvore de decisão

  • Avaliação de modelos de classificação: matriz de confusão, curvas ROC, Precisão, revocação e especificidade, AUC, Lift etc

  • Bagging e floresta aleatória (random forests)

  • Boosting

 

Leituras introdutórias/motivadoras

Data Scientist: The Sexiest Job of the 21st Century

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

Cientistas de Dados: quem são, o que fazem e por que você quer ser um?

https://www.sas.com/pt_br/insights/analytics/cientistas-de-dados.html

Life of Data | Data Science is OSEMN

https://medium.com/@randylaosat/life-of-data-data-science-is-osemn-f453e1febc10

Referências

L. P. Fávero e P. Belfiore (2017). Manual de análise de dados. Ed. Elsevier.

 

P. Bruce e A. Bruce (2019). Estatística prática para cientistas de dados, Ed. O’Reilly

 

W. de O. Bussab e P. A. Morettin (2017). Estatística básica, 9º ed., Ed. Saraiva

 

F. Provost e T. Fawcett (2016). Data Science para negócios. Ed. Alta Books.

 

Ch. Wheelan (2013). Estatística: o que é, para que serve, como funciona, 5ª ed., Ed. Zahar

 

K. Faceli et al (2021). Inteligência Artificial: uma abordagem de aprendizado de máquina, 2ª ed.; ed. LTC

 

R. Hoffmann (2016) Análise estatística de relações lineares e não lineares. Edição do autor. Portal de livros abertos da USP.

https://doi.org/10.11606/9788592105716

Nota: ao longo do semestre se indicará bibliografia complementar referente às aplicações de cada seção.

bottom of page