top of page

Se tornando uma cientista de dados - Parte 2 - O passo-a-passo para se tornar um cientista de dados?

  • Foto do escritor: Andressa Siqueira
    Andressa Siqueira
  • 14 de ago. de 2023
  • 6 min de leitura

Quais são os passos-a-passos para conseguir se tornar um cientista de dados? Eu mesma já me fiz muito essa pergunta quando decidi seguir essa trilha e me tornar uma cientista de dados e vou trazer aqui um pouco do que aprendi, li e acredito que funcione.





Quais são os passos parra me tornar um cientista de dados?


Passo 1 - Autoavaliação

Uma auto avaliação é extremamente necessária, pois é necessário que você entenda alguns pontos importantes antes de iniciar na carreira de dados. Você precisa estar ciente do momento atual da sua carreira e também do seu objetivo a curto e longo prazo (5 e 10 anos). Isso te ajudará a traçar a melhor estratégia para se tornar um sênior na área de dados, saber o que esperar e em quanto tempo você alcançará os seus objetivos.





Passo 2 - Prepara o seu computador

Isso é necessário, pois seu computado precisa processar scripts e permitir a instalação de ferramentas especificas tais como: interpretadores, office, IDE (ambiente integrado de desenvolvimento), e em alguns casos até mesmo um banco de dados.





Segundo [1], um computador recomendado é um computador com 8GB de memória RAM, com um processador Intel i5/i7/i9 ou equivalente.

A escolha da IDE vai estar ligada diretamente na escolha da linguagem de programação que você decidir estudar e trabalhar. É possível também criar seus scripts de forma online, um exemplo disso é a IDE do Jupiter Notebook, porém não é sempre que é possível estarmos online, então é recomendado a instalação de alguns softwares no seu computador (Todos são gratuitas):


  • Editores de texto: Sublime, Atom, Notepad++

  • Software para Máquinas Virtuais: VirtualBox, Parallels

  • Git e Github: para criar seu portfólio de projetos em Data Science

  • Suite Office: Libre Office


Passo 3 - Estude

Agora começa a parte do aprendizado, esforço e suor! A ciência de dados é uma área de estudo contínuo por ser é uma área interdisciplinar e em constante evolução.



Uma boa forma de começar a estudar qualquer área de conhecimento é ter uma noção ampla dos tópicos na área de interesse.[2]


Para isso usamos o diagrama de Venn.

Diagrama de Venn
Diagrama de Venn [3]

O Diagrama de Venn nos mostra a intersecção de conhecimentos necessários para um profissional que deseja trabalha com ciência de dados, sendo como base 3 pilares: habilidades de programação (chamado de Hacking Skills no diagrama), conhecimento de matemática e estatística e domínio da área de negócio que você está inserido. Vamos ver com mais detalhes cada um dos tópicos do Diagrama da Venn


Habilidade de Programação

Também conhecido como habilidade de programação, é uma competência essencial para todo cientista de dados. Saber lógica e alguma linguagem de programação é um conhecimento básico que não dá para ser ignorado por quem quer entrar nessa área. As linguagens mais utilizadas por um cientista de dados são: Python, R e Big Data.


Pyhton/R

Com as linguagens Pyhton e R nós podemos manipular os dados de maneira mais complexas por meio de funções matemáticas e gráficos que nos ajudam a entender melhor a base que temos e também são usadas para criar os algoritmos de Machine Learning. Eu, sinceramente, prefiro Pyhton, pois acho que é uma linguagem mais limpa, fácil e também com mais documentação e exemplos na internet.


É necessário também conhecer as bibliotecas NumPy, Pandas e SciPy, pois são as mais usadas durante a análise e desenvolvimento de um algoritmo.


A linguagem Python foi criada no início da década de 90 e conquistou bastante espaço no mercado de desenvolvimento de sistemas e sites web. Mais recentemente, passou a dominar também a área de ciência de dados. Diferentemente da linguagem Python, que teve suas origens na computação, a linguagem R tem suas raízes no domínio da estatística e é muito popular entre cientistas de dados oriundos dessa área.[2]


Algumas outras linguagens que também são usadas pelos cientistas de dados são Julia, Scala, Java.


Big Data

Aqui estamos falando da matéria-prima de todo cientista e do Big Data que são os dados. Sem eles, o cientista de dados não tem o que analisar e atualmente, nas empresas, a função desse profissional é analisar dados provenientes muitas vezes de um Big Data.


A profissão de Cientista de Dados, surgiu da necessidade de criar novos métodos de análise do imenso volume de dados que vem crescendo exponencialmente [2].


As tecnologias usadas em Big Data (tais como bancos de dados relacionais, Data Warehouses, bancos de dados NoSQL, Hadoop, linguagem SQL, Hadoop, Spark) estão diretamente ligadas ao trabalho do Cientista de Dados.


Matemática e Estatística

Usualmente, as soluções de ciências de dados são construídas a partir de conceitos fundamentais encontrados na matemática e estatística [1]. Por isso é fundamental que se entenda pelo menos o conceito básico de Álgebra Linear, Cálculo, Probabilidade e Estatística, ou seja, o cientista de dados não precisa ser um especialista em cálculo, mas não conseguira viver longe dessas bases que ajudará nas análises feitas por meio de gráficos e mapas, e nas modelagens com machine learning e deep learning.


Domínio da área de negócio

É fundamental para a pessoa cientista de dados desenvolver a capacidade de transformar problemas de negócio em problemas de ciência de dados [1]. Através de conhecimento o cientista de dados será capaz de elaborar os objetivos de forma clara da análise a ser realizada


Normalmente o mercado interpreta de forma equivocada este requerimento para a profissão de Cientista de Dados, fazendo crer que o profissional precisa ser especialista em determinado segmento de negócio [1]. O que o profissional precisa é ter um conhecimento mínimo da área que é possível obter por perguntas simples como: quais são os principais indicadores da área da sua empresa? De onde vem os dados que a empresa possui? Que problemas a empresa precisa resolver?


Além desses pilares é necessário mais alguma coisa a ser estudada?

Eu diria que sim! Acredito que estudar sobre técnicas de Apresentação e Visualização de Dados é super importante, pois isso ajudará ao cientista de dados ser um contador de história mais assertivo na hora de defender o início de um projeto e mostrar o resultado e possíveis caminhos a serem tomados pelas empresas para que seu lucro seja maior ou seu custo seja menor.


Outro ponto super importante é saber inglês! A maioria da documentação e artigos sobre o tema está em no idioma do tio Sam...


Passo 4 - Pratique! Pratique! Pratique! E pratique mais uma vez!


De forma geral, toda solução de ciência de dados envolve as seguintes macros atividades conforme a imagem abaixo: coletar dados, organizá-los, transformá-los, visualizá-los, modelá-los e, finalmente, comunicar os resultados [2]. Mas no dia-a-dia, os projetos não seguem essa ordem tão bonitinha e linear... Durante um projeto, em uma empresa, é necessário revisitar várias vezes algumas etapas até que encontremos o melhor conjunto de treinamento do algoritmo e o melhor algoritmo em si.



Colocando em prática por meio de projetos, você vai fixar o conhecimento técnico adquirido durante o estudo, ganhar confiança na sua análise prévia dos dados e já é um primeiro passo para montar um portfólio!


Escolha projetos que tenha a ver com algo que você goste ou que estejam alinhados com seus interesses ou objetivos, mas se você não tiver ideia do que fazer você pode acessar um dos links abaixo para pegar ideias!


  • https://www.kaggle.com/

  • https://github.com/rfordatascience/tidytuesday


No caso do Kaggle, você pode programar todo o código dentro da própria plataforma e eles disponibilizam as bases de dados. Uma coisa bem legal é que a própria plataforma tem já separado, alguns materiais para quem ta começando e também desafios para iniciantes (Estou começando a pegar eles, codificar e colocar aqui no site). Além disso, existem algumas competições dentro da plataforma que dão prêmios!


À medida que você for concluindo projetos pessoais, pode ser legal reuni-los em um único lugar [2]. E aí entra o nosso último passo!


Passo 5 - Crie seu portfólio


Eu indico a você reunir todo o seu código no Github e também a criar um site ou artigos no LinkedIn onde você possa escrever sobre o processo de desenvolvimento de cada projeto que você fizer... Dessa forma, as empresas têm como avaliar seu conhecimento.





Dicas Extras


Algumas dicas extras, bem oportunas, que tenho para dar são:

  • Siga blogs especializados, influenciadores no LinkedIn e rede sociais de cientista de dados! Vários deles estão compartilhando o seu conhecimento e/ou seu dia-a-dia em alguma plataforma e estão abertos a interações, assim como eu!

  • Assista a esses vídeos do TED [4].

  • Participe das competições disponíveis do Kaggle e estude os algoritmos que outros cientistas de dados enviam na mesma competição para entender o que vocês fizeram de diferente.

  • Participe de comunidades de ciência de dados, programação e banco de dados! Isso ajuda muito na hora que temos uma dúvida e não temos ideia do que fazer! Muitas vezes, pedir ajuda nas comunidades nos faz sair do beco que entramos!

Mas cuidado!


  • Não comece a estudar achando que o aprendizado é rápido e fácil... Não existe isso para nenhuma profissão!

  • Não tente aprender todos os conceitos necessários ao mesmo tempo!

  • Não comece com problemas muito complexos... prefira começar com problemas simples e vai avançando ao pouco!


Pra finalizar...

E aí, gostou desse passo-a-passo? Se você está começando na área ou que começar, achou ele viável para começar na área de dados? E você que já está na área, achou ele realista?



Referências

[1] Cientista de Dados - Por Onde Começar em 8 Passos. Disponível em: <https://blog.dsacademy.com.br/cientista-de-dados-por-onde-comecar-em-8-passos/>.

[2] Como se tornar cientista de dados: veja o passo a passo. Disponível em: <https://www.gupy.io/blog-do-emprego/como-se-tornar-cientista-de-dados>. Acesso em: 9 ago. 2023.

[3] CONWAY, D. Drew Conway. Disponível em: <http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram>.

[4] TERA. Como migrar para Ciência de Dados: dicas práticas para iniciar na carreira. Disponível em: <https://medium.com/somos-tera/como-migrar-para-ciencia-de-dados-5bef54462419>.

‌[5] VASCONCELLOS, P. Como ser um Data Scientist no Brasil? Disponível em: <https://paulovasconcellos.com.br/como-ser-um-data-scientist-no-brasil-1b9c0485ca90>. Acesso em: 14 ago. 2023.

Imagens


De capa - https://www.linkedin.com/pulse/cientista-de-dados-um-caminho-percorrer-raniere-ramos/


Comments


Assine a newsletter e fique sempre por dentro dos artigos que escrevo 

Obrigado(a)!

CONTATO

Obrigado pelo envio!

© 2020 por Andressa Siqueira. Orgulhosamente criado com Wix.com

bottom of page