IF1015 — Introdução a Ciência dos Dados

Prof. Renato Vimieiro (rv2 em cin.ufpe.br)


Material de referência

Esta disciplina não possui um único livro-texto que usaremos durante todo o curso. Por se tratar de uma área extremamente nova, todo o conteúdo se encontra espalhado, principalmente em sites na internet. Existem, contudo, alguns livros que podem auxiliar no aprendizado de alguns tópicos que veremos durante o curso. Dito isso, é muito provável que tais livros vão além do que estudaremos durante o semestre. De qualquer forma, eles podem ser de interesse para aqueles que queiram se aprofundar no assunto. Vocês vão notar também que existem referências tanto para R quanto para Python. Embora o curso seja dado em Python, o domínio de R é tão importante quanto. Assim, as referências servem de base para buscar conhecimento nessa linguagem. Finalmente, a literatura disponível sobre o assunto é em sua maioria em língua inglesa. Existem pouquíssimos textos em português. Existem traduções, sobretudo, das documentações das diversas bibliotecas que usaremos, mas é fortemente recomendado que você se habitue desde já a ler o conteúdo em inglês (nem que para isso necessite de ajuda de um tradutor automático).

Livros recomendados
Outros cursos sobre Data Science
  • Harvard CS109 Data Science. Excelente curso sobre data science. Contém material online com os vídeos das aulas, slides, exemplos, e vários links de interesse. A disciplina foi bastante influenciada por este curso.

  • The Uni of Utah Introduction to Data Science. Contém uma lista bem vasta de materiais de apoio, com links para a instalação e aprendizado de diversas bibliotecas que usaremos no nosso curso. Na seção Schedule, vários artigos interessantes são recomendados. Pode ser usado como material complementar para as aulas de Harvard.

  • Uni of Florida Introduction to Data Science/Data Intensive Computing. Este curso é complementar ao apresentado aqui. O curso é mais voltado para processamento de grandes volumes de dados e novos ambientes de programação distribuída. Esse tópico é muito importante para aqueles que têm interesse em seguir carreira nessa área. Contudo, o tópico não foi incluído na ementa de IF1015 por sua complexidade. Estamos planejando um segundo módulo dessa disciplina mais parecida com o curso da Florida.

  • Rutgers Uni Introduction to Data Science. O site do curso possui uma lista de links muito completa sobre vários assuntos.

Material sobre NumPy, SciPy, Pandas e outras bibliotecas/ferramentas de Python
Visualização de dados
  • Visualização de Dados. Disciplina ofertada pelo Prof. Nivan do CIn-UFPE. É fortemente recomendado àqueles que querem seguir carreira na área cursar essa disciplina. Veja alguns exemplos de visualizações feitas pelos alunos na disciplina aqui.

  • Flowing Data. Site com vários exemplos de visualização de dados.

  • D3.js. Biblioteca em Javascript de visualizações de dados dinâmicas. Essa ferramenta é muito popular, tendo sido criadas diversas outras bibliotecas baseados nela. Seu criador, Mike Bostock, trabalhava para o NY Times onde várias visualizações foram criadas com a biblioteca.

  • Bokeh. Módulo de Python para produzir visualizações dinâmicas ao estilo D3.js.

  • Plotly. Biblioteca para geração de visualizações dinâmicas com interfaces em Python, R e Matlab. Possui versão gratuita para comunidade e também outros planos pagos.

  • ggplot2 (R) e ggplot2 (Python). Excelente biblioteca para gerar gráficos em R (originalmente) e Python (portada). Recomendo fortemente que você se familiarize com essa biblioteca pela qualidade dos gráficos gerados.

  • WTF Visualizations. O nome já diz tudo! Site com diversos contra-exemplos de visualizações.

Blogs e sites relacionados à área
  • KDNuggets. Na minha opinião o maior repositório de informações sobre mineração de dados, aprendizado de máquina, data science e relacionados da internet.

  • Simply Statistics. Blog de três professores de bioestatística da John Hopkins University e Harvard. Abordam diversos assuntos sobre data science e estatística.

  • Blog do Randal Olson. Blog de um Snr Data Scientist do Institute for Biomedical Informatics da Universidade da Pennsylvania-EUA. O autor frequentemente mostra diversas visualizações efetivas e não, além de posts sobre data science.

Introdução a Git