Uma Jornada de Dados com R – TDC 2018

Ontem estive participando do The Developer’s Conference 2018, em Porto Alegre. O TDC é um grande evento de tecnologia que ocorre todo ano em Porto Alegre, assim como em outros estados.

Nesta ocasião participei e apresentei uma palestra na trilha Data Science, onde compartilhei com a minha jornada de aprendizado e aplicação da Ciência de Dados, um compilado de tudo o que tenho compartilhado aqui no site Decifrando Dados.

Foi uma enorme satisfação poder contribuir um pouquinho com esta comunidade. Se você tem interesse em conhecer o conteúdo da palestra, ela está disponível no meu canal do Slideshare. Infelizmente não há gravação da apresentação, mas se você tiver alguma curiosidade, é só escrever aí nos comentários 🙂

Primeiros passos com Python e Anaconda

Anaconda

Tenho utilizado o R nos últimos anos para desenvolver meus projetos de Ciência de Dados. Utilizo como ambiente de desenvolvimento o RStudio, uma IDE fantástica para R, e pacotes como shiny, rmarkdown e ggplot2 (Uma relação competa dos pacotes que utilizo você encontra aqui).

No entanto, o Python tem ganhado cada vez mais força como plataforma para Ciência de Dados, e parece estar garantindo a liderança na preferência dos profissionais da área. Li diversos comparativos sobre os ambientes, e decidi iniciar os estudos do Python. O objetivo não é substituir o R pelo Python, mas sim contar com ambas as plataformas e utilizar a mais conveniente em cada contexto.

Ler maisPrimeiros passos com Python e Anaconda

Nosso mundo em dados

Hoje estava lendo alguns sites que acompanho, e me deparei com um excelente texto do blog do Bill Gates intitulado Memorizando estas três estatísticas lhe ajudará a entender o mundo. (original em inglês Memorizing these three statistics will help you understand the world).

Três fatos que eu não fazia ideia, e que são acalentadores para entendermos o nosso mundo e o futuro da humanidade:

Ler maisNosso mundo em dados

Eliminação regressiva automática

Em Machine Learning, é muito comum realizarmos o processo de eliminação regressiva (Backward Elimination) em Regressões Lineares, a fim de diminuir o conjunto de variáveis independentes x que influenciam a variável dependente y, criando um modelo bom e simples.

Esse processo pode ser feito de forma automática, e abaixo compartilho um trecho de código para fazer a eliminação regressiva em R.

Repare que o nome da variável dependente está fixo no algoritmo (Profit). No caso você deve substituí-la pelo nome da sua variável dependente y.

backwardElimination <- function(x, sl) {
  
  numVars = length(x)
  
  for (i in c(1:numVars)){
    regressor <- lm(formula = Profit ~ ., data = x)
    maxVar <- max(coef(summary(regressor))[c(2:numVars), "Pr(>|t|)"])
    if (maxVar > sl){
      j = which(coef(summary(regressor))[c(2:numVars), "Pr(>|t|)"] == maxVar)
      x = x[, -j]
    }
    numVars <- numVars - 1
  }
  return(summary(regressor))
}
dataset = ...

SL = 0.05 
training_set = ...
backwardElimination(training_set, SL)

....

Dinheiro em Circulação no Brasil

Esse  documento rmarkdown foi desenvolvido para explorar dados referentes à circulação de dinheiro em espécie no Brasil. Em uma breve jornada vemos valores, tipos e raridade das moedas e cédulas em circulação, e também mostramos a substituição das mesmas ao longo dos anos.

Visualização online

O documento rmarkdown pode ser visualizado no link http://www.decifrandodados.com.br:81/DinheiroCirculacao.

Ler maisDinheiro em Circulação no Brasil

Criptocurrency Market Capitalization

Esse  documento rmarkdown foi desenvolvido com o objetivo de explorar no R dados referentes às principais Criptomoedas do mercado, utilizando dados do website CoinMarketCap.

Visualização online

O documento rmarkdown pode ser visualizado no link http://www.decifrandodados.com.br:81/CryptoMarket.

Ler maisCriptocurrency Market Capitalization

Estimativas Populacionais do Brasil

Esse  documento rmarkdown foi desenvolvido com o objetivo de explorar as estimativas populacionais do Brasil, utilizando dados do IBGE de 2017. Aqui fazemos uma jornada explorando os extremos de população e densidades nas diversas unidades federativas do país, destacando contrastes encontrados neste grande país.

Visualização online

O documento rmarkdown pode ser visualizado no link http://www.decifrandodados.com.br:81/EstimativasPopulacionais.

Ler maisEstimativas Populacionais do Brasil