top of page

Projeto de DataScience - Análise da temperatura nas cidades Brasileiras - Capítulo 1

  • Foto do escritor: Andressa Siqueira
    Andressa Siqueira
  • 8 de out. de 2020
  • 2 min de leitura

Atualizado: 22 de nov. de 2024

O principal objetivo desse artigo é demostrar como foi feita a análise dos dados de temperatura nas cidades brasileiras. Ele será sempre atualizado conforme o andamento do projeto!


Inicialmente vamos falar de todas as bibliotecas que estamos usando até o momento

library(dplyr)
library(data.table)
library(ggplot2)

A biblioteca dplyr está presente para que possamos realizar as transformações de dados, sendo suas principais funções:

  • filter() - filtra linhas

  • select() - seleciona colunas

  • mutate() - cria/modifica colunas

  • arrange() - ordena a base

  • summarise() - sumariza a base

E todas possuem as mesmas características:

  • Seu input e output sempre são um tibble, que é um data-frame.

  • No input, o primeiro argumento é sempe o tibble.

  • Atualização dos dados é facilitada pelo operador %>%

Nossa primeira tarefa é a leitura dos dados para que possamos trabalhar. Após realizar o download da base de dados, que está em CSV, foi feita a importação em R da base através do código:

system.time(df<- fread("TemperaturasGlobais/TemperaturasGlobais.csv"))

A função system.time nos dá a informação de quando tempo o nosso computador demorou para importar a base de dados. Essa base contém 8,599,212 linhas e 7 colunas e foi lida em 13.75 segundos.


Após a importação, foi feita uma análise dos dados contidos na base e uma preparação simples da base de dados onde foi retirado todos os valores com NA, formatado as datas presentes na base e criado duas novas colunas refentes ao mês e ano da coleta do dado.


Logo após, foi listado todas as cidades brasileira presente no documento atrvés do código:

lista_cidades= distinct(cidadesBRasil,City)

Essa lista serve para identificarmos como uma cidade está referenciada na base de dados e quantas temos.


Escolhi a cidade de Rio de Janeiro para iniciar a análise e para isso foi criado um subset somente com dados da cidade respectiva.

subset(cidadesBRasil,City=='Rio De Janeiro')

Para efeito comparativo sobre a evolução da temperatura, foi criado um gráfico com os dados através do código:

ggplot (rio_janeiro, aes(x=(dt), y=AverageTemperature)) +
                         geom_smooth(se=FALSE, fill=NA, size=1) +
                         theme_light(base_size = 12) +
                         xlab("Mês") +
                         ylab("Temperatura média") +
                         scale_color_discrete("") +
                         ggtitle("Temperatura média entre 1832 e 2013 no Rio de Janeiro") +
                         theme(plot.title = element_text(size=12))

Que gerou o seguinte resultado:




Comments


Assine a newsletter e fique sempre por dentro dos artigos que escrevo 

Obrigado(a)!

CONTATO

Obrigado pelo envio!

© 2020 por Andressa Siqueira. Orgulhosamente criado com Wix.com

bottom of page