Projeto de DataScience - Análise da temperatura nas cidades Brasileiras - Capítulo 1
- Andressa Siqueira
- 8 de out. de 2020
- 2 min de leitura
Atualizado: 22 de nov. de 2024
O principal objetivo desse artigo é demostrar como foi feita a análise dos dados de temperatura nas cidades brasileiras. Ele será sempre atualizado conforme o andamento do projeto!
Inicialmente vamos falar de todas as bibliotecas que estamos usando até o momento
library(dplyr)
library(data.table)
library(ggplot2)
A biblioteca dplyr está presente para que possamos realizar as transformações de dados, sendo suas principais funções:
filter() - filtra linhas
select() - seleciona colunas
mutate() - cria/modifica colunas
arrange() - ordena a base
summarise() - sumariza a base
E todas possuem as mesmas características:
Seu input e output sempre são um tibble, que é um data-frame.
No input, o primeiro argumento é sempe o tibble.
Atualização dos dados é facilitada pelo operador %>%
Nossa primeira tarefa é a leitura dos dados para que possamos trabalhar. Após realizar o download da base de dados, que está em CSV, foi feita a importação em R da base através do código:
system.time(df<- fread("TemperaturasGlobais/TemperaturasGlobais.csv"))
A função system.time nos dá a informação de quando tempo o nosso computador demorou para importar a base de dados. Essa base contém 8,599,212 linhas e 7 colunas e foi lida em 13.75 segundos.
Após a importação, foi feita uma análise dos dados contidos na base e uma preparação simples da base de dados onde foi retirado todos os valores com NA, formatado as datas presentes na base e criado duas novas colunas refentes ao mês e ano da coleta do dado.
Logo após, foi listado todas as cidades brasileira presente no documento atrvés do código:
lista_cidades= distinct(cidadesBRasil,City)
Essa lista serve para identificarmos como uma cidade está referenciada na base de dados e quantas temos.

Escolhi a cidade de Rio de Janeiro para iniciar a análise e para isso foi criado um subset somente com dados da cidade respectiva.
subset(cidadesBRasil,City=='Rio De Janeiro')
Para efeito comparativo sobre a evolução da temperatura, foi criado um gráfico com os dados através do código:
ggplot (rio_janeiro, aes(x=(dt), y=AverageTemperature)) +
geom_smooth(se=FALSE, fill=NA, size=1) +
theme_light(base_size = 12) +
xlab("Mês") +
ylab("Temperatura média") +
scale_color_discrete("") +
ggtitle("Temperatura média entre 1832 e 2013 no Rio de Janeiro") +
theme(plot.title = element_text(size=12))
Que gerou o seguinte resultado:

Comments