Esta disciplina não possui um único livro-texto que usaremos durante todo o curso. Por se tratar de uma área extremamente nova, todo o conteúdo se encontra espalhado, principalmente em sites na internet. Existem, contudo, alguns livros que podem auxiliar no aprendizado de alguns tópicos que veremos durante o curso. Dito isso, é muito provável que tais livros vão além do que estudaremos durante o semestre. De qualquer forma, eles podem ser de interesse para aqueles que queiram se aprofundar no assunto. Vocês vão notar também que existem referências tanto para R quanto para Python. Embora o curso seja dado em Python, o domínio de R é tão importante quanto. Assim, as referências servem de base para buscar conhecimento nessa linguagem. Finalmente, a literatura disponível sobre o assunto é em sua maioria em língua inglesa. Existem pouquíssimos textos em português. Existem traduções, sobretudo, das documentações das diversas bibliotecas que usaremos, mas é fortemente recomendado que você se habitue desde já a ler o conteúdo em inglês (nem que para isso necessite de ajuda de um tradutor automático).
Hey, T., Tansley, S. and Tolle, K.M., 2009. The fourth paradigm: data-intensive scientific discovery (Vol. 1). Redmond, WA: Microsoft research.
Munzner, T., 2014. Visualization Analysis and Design. CRC Press.
Provost, F. and Fawcett, T., 2013. Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media, Inc.
James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013. An introduction to statistical learning (Vol. 6). New York: Springer.
Zaki, M.J. and Meira Jr, W., 2014. Data mining and analysis: fundamental concepts and algorithms. Cambridge University Press.
McKinney, W., 2012. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. O'Reilly Media, Inc.
Grus, J., 2015. Data Science from Scratch: First Principles with Python. O'Reilly Media, Inc.
Wickham, H., 2009. ggplot2: elegant graphics for data analysis. Springer Science & Business Media.
Wickham, H., 2014. Advanced R. CRC Press.
Wickham, H. and Grolemund, G., 2016. R for Data Science: Visualize, Model, Transform, Tidy, and Import Data. O'Reilly Media, Inc.
Harvard CS109 Data Science. Excelente curso sobre data science. Contém material online com os vídeos das aulas, slides, exemplos, e vários links de interesse. A disciplina foi bastante influenciada por este curso.
The Uni of Utah Introduction to Data Science. Contém uma lista bem vasta de materiais de apoio, com links para a instalação e aprendizado de diversas bibliotecas que usaremos no nosso curso. Na seção Schedule, vários artigos interessantes são recomendados. Pode ser usado como material complementar para as aulas de Harvard.
Uni of Florida Introduction to Data Science/Data Intensive Computing. Este curso é complementar ao apresentado aqui. O curso é mais voltado para processamento de grandes volumes de dados e novos ambientes de programação distribuída. Esse tópico é muito importante para aqueles que têm interesse em seguir carreira nessa área. Contudo, o tópico não foi incluído na ementa de IF1015 por sua complexidade. Estamos planejando um segundo módulo dessa disciplina mais parecida com o curso da Florida.
Rutgers Uni Introduction to Data Science. O site do curso possui uma lista de links muito completa sobre vários assuntos.
10 Minutes to Pandas. Micro-tutorial sobre Pandas. Se você nunca ouviu falar sobre Pandas, recomendo começar por aqui.
Ciência/Análise de Dados com Python Básico. Esse blog, em português, mostra como executar várias tarefas de data science em Python, usando as mesmas bibliotecas que em IF1015.
Tutorial em inglês sobre uso de Requests e Beautiful Soup para data scraping.
Visualização de Dados. Disciplina ofertada pelo Prof. Nivan do CIn-UFPE. É fortemente recomendado àqueles que querem seguir carreira na área cursar essa disciplina. Veja alguns exemplos de visualizações feitas pelos alunos na disciplina aqui.
Flowing Data. Site com vários exemplos de visualização de dados.
D3.js. Biblioteca em Javascript de visualizações de dados dinâmicas. Essa ferramenta é muito popular, tendo sido criadas diversas outras bibliotecas baseados nela. Seu criador, Mike Bostock, trabalhava para o NY Times onde várias visualizações foram criadas com a biblioteca.
Bokeh. Módulo de Python para produzir visualizações dinâmicas ao estilo D3.js.
Plotly. Biblioteca para geração de visualizações dinâmicas com interfaces em Python, R e Matlab. Possui versão gratuita para comunidade e também outros planos pagos.
ggplot2 (R) e ggplot2 (Python). Excelente biblioteca para gerar gráficos em R (originalmente) e Python (portada). Recomendo fortemente que você se familiarize com essa biblioteca pela qualidade dos gráficos gerados.
WTF Visualizations. O nome já diz tudo! Site com diversos contra-exemplos de visualizações.
KDNuggets. Na minha opinião o maior repositório de informações sobre mineração de dados, aprendizado de máquina, data science e relacionados da internet.
Simply Statistics. Blog de três professores de bioestatística da John Hopkins University e Harvard. Abordam diversos assuntos sobre data science e estatística.
Blog do Randal Olson. Blog de um Snr Data Scientist do Institute for Biomedical Informatics da Universidade da Pennsylvania-EUA. O autor frequentemente mostra diversas visualizações efetivas e não, além de posts sobre data science.