Projeto de Data Science - Previsão de ações da bolsa de valores - Parte 1 - Entendendo a nossa base!
- Andressa Siqueira
- 16 de jul. de 2021
- 4 min de leitura
Atualizado: 23 de set. de 2021
Pra quem não sabe, estou atualmente fazendo o curso de formação de Cientista de Dados na Data Science Academy (DSA) que lançou mais uma turma de mentoria para quem desejasse participar! Logo que eu corri e me inscrevi, só que dessa vez eu quis ser mentorada e não mentora!
Apesar de eu adorar compartilhar o conhecimento, senti que dessa vez era hora de eu estar do outro lado!
A DSA em conjunto com meu mentor Rodolfo ( sim, ele que me atura agora) lançou um desafio.... fazermos um projeto de data science.... e o meu grupo resolveu escolher fazer o projeto em cima das ações da bolsa!
Deu medo.. pra c****** ... mas como não sou de fugir de desafio... cá estou eu começando mais um projeto! kkkkkkkk
Cada pessoa do grupo pegou pra analisar uma empresa especifica! No meu caso, eu peguei a Petrobrás!
Meus primeiros desafios!
Sem sombra de duvida meus primeiro desafios foram:
Onde eu consigo pegar a base de dados históricos das ações?
O que é série temporal?
Sim.. eu estava mais perdida que cego sozinho em tiroteio! Mas como diria Jack estripador, vamos por partes!
A primeira tarefa era sem dúvida encontrar a base de dados históricos... depois de muito vasculhar a internet encontrei a base dentro do Yahoo Finance....

Fiz o download e o arquivo vem com a extensão CSV.
A segunda tarefa é entender qual informação está em cada coluna! Então, voltamos a internet!
O que é o mercado de ações e o que são as informações que estão nos dados históricos?
O mercado de ações é o ambiente no qual empresas que possuem o capital aberto negociam frações do seu patrimônio (ações). E a logica geral é quanto maior o número de possíveis compradores, maior é o valor da ação!
Devido as inúmeras transações que ocorrem durante o pregão da bolsa de valores, os valores das ações estão sempre mudando!
E as colunas presentes nos dados históricos são o que?
Vamos falar das informações de cada uma das colunas presentes nos dados baixados...
Data - Referente a data que teve operação. Para nós, ela é uma chave identificadora!
Open - Valor da ação no momento da abertura;
High - Valor mais alto atingindo no dia;
Low - Valor mais baixo atingido no dia;
Close - Valor das ações no momento do fechamento;
Adj close - Também chamado de fechamento ajustado, é o preço de fechamento após os ajustes para todos os desdobramentos e distribuições de dividendos aplicáveis. Os dados são ajustados usando multiplicadores de desdobramentos e dividendos apropriados, aderindo aos Centro de pesquisa de preços de títulos (CRSP) padrões [1].
Bora começar a brincadeira?
Após o primeiro entendimento dos dados que conseguimos, vamos fazer uma análise básica deles!
Primeira coisa, vamos importa os dados usando a biblioteca pandas e usar a função describe para entendermos melhor a base. Nesse caso, nós queremos ver se existe alguma linha em branco ou com falta de dados.

Podemos perceber que não existe linhas com falta de dados...
Já temos os dados e o que vamos fazer para prever as ações?
Vamos usar o conceito de séries temporais!
O que são Séries Temporais
É quando os dados são observados em diferentes instantes do tempo. Esses instantes de tempo podem ser diariamente (preço de ações, relatórios meteorológicos), mensalmente (taxa de desemprego, IPC), trimestralmente (PIB) e etc. Nesse caso, é importantíssimo que as datas e hora sejam as suas chaves e que os dados estejam ordenados.
A suposição básica que norteia a análise de séries temporais é que há um sistema causal mais ou menos constante, relacionado com o tempo, que exerceu influência sobre os dados no passado e pode continuar a fazê-lo no futuro. Este sistema causal costuma atuar criando padrões não aleatórios que podem ser detectados em um gráfico da série temporal, ou mediante algum outro processo estatístico. [2]
Os principais objetivos ao usar série temporal são:
Compreender o mecanismo gerador da série;
Descrever efetivamente o comportamento da série;
Encontrar periodicidades na série;
Tentar obter razões para o comportamento da série;
Predizer o comportamento futuro da série nos permite fazer planos e tomar decisões a longo, médio e curto prazo;
Séries temporais são processos estocásticos por leis probabilísticas.
Todas as séries temporais são compostas de quatro padrões, segundo o modelo clássico:
Tendência (T) - Mostra se a série está crescendo, decrescendo ou constante;
Variações cíclicas ou ciclos (C) - São flutuações que se repetem porém sem uma periocidade certa;
Variações sazonais ou sazonalidade (S) - São flutuações que se repetem com certa periodicidade;
Variações irregulares (I) - Também chamada de Erro Aleatório, são flutuações inexplicáveis dentro da série!
Uma observação importante é que nem todas séries temporais irá apresentar todos os componentes citados acima. (Depois faço um artigo explicando mais detalhadamente todo o conceito de séries temporais)
Legal, mas ainda não sei o que você ai fazer...
Calma pequeno pawdawn, eu vou explicar agora!
Pra trabalharmos com séries temporais a primeira coisa é avaliarmos a estacionaridade, que realizamos através de um teste de hipóteses.
Depois, partimos para a decomposição principal para análise de uma série temporal, que é descobrir a:
- Sazonalidade;
- Tendência;
- Ruído.
Depois disso pensamos em algum método de previsão ( que será matéria para os próximos artigos)
E ai, gostou?
Referências
Kommentare