Se tornando uma cientista de dados - Parte 4 - Linguagem R
- Andressa Siqueira
- 31 de jan. de 2024
- 4 min de leitura
Introdução
No vasto universo da programação voltada para estatística e ciência de dados, uma linguagem emerge: R, muito usada por vários cientistas de dados. Vamos mergulhar no vasto oceano da linguagem R e descobrir mais sobre ela nesse artigo.
A História de Ambição Acadêmica
A origem da linguagem R inicia-se muito do início da própria linguagem. Entender a filosofia da linguagem S, ajuda a entender as raízes que geraram a linguagem R.
S é a linguagem que foi desenvolvida por John Chambers nos laboratórios da Bell Labs, originalmente parte da AT&T. S foi inicialmente desenvolvida em 1976 como um ambiente de análise estatística, originalmente implementada usando bibliotecas da linguagem de programação Fortran. Entretanto, as primeiras versões da linguagem não continham funções de modelagem estatística. [1]
Em 1988 o sistema foi reescrito em linguagem C e começou a ter o formato que existe atualmente (já era a versão 3 da linguagem). O livro Statistical Models in S de Chambers e Hastie documenta as funcionalidades de análise estatística. A versão 4 de S foi liberada em 1998, sendo a versão que existe atualmente. Chambers escreveu o livro Programming with Data para documentar esta versão da linguagem. [1]
Em 1993, a Bell Labs concedeu à empresa Insightful Corp (que à época tinha o nome de StatSci) uma licença exclusiva para desenvolver e vender a linguagem S. Em 2008 a Insightful foi adquirida pela TIBCO por 25 milhões de dólares. A TIBCO é atualmente a proprietária da linguagem S. Os fundamentos da linguagem S praticamente não mudaram desde a versão lançada em 1998. Em 1998 aliás, S ganhou um prêmio por sua preciosa contribuição no campo da ciência da computação. O prêmio concedido a S, dizia [1] :
“...irá mudar para sempre a forma como as pessoas analisam, visualizam e manipulam dados. S é elegante, amplamente aceita e possui os conceitos principais de sistemas de software, como integridade....obrigado John Chambers por esta ideia e esforço...” [1]
Na década de 90, na Universidade de Auckland, Nova Zelândia, nascia a linguagem R, sendo concebida pelos visionários Ross Ihaka e Robert Gentleman. Movidos pela insatisfação diante das limitações das linguagens estatísticas então disponíveis (principalmente a S), esses dois pioneiros embarcaram em uma missão audaciosa: criar uma linguagem de programação que fosse especialmente adaptada às complexas exigências dos estatísticos e cientistas de dados.
E diferentemente da linguagem S que estava disponível apenas através do um pacote comercial, a linguagem R nasceu como o código aberto, graças a utilização da licença GNU General Public.
Em 1996 as listas públicas R-help e R-devel foram criadas e em 1997 foi formado o grupo R Core, com profissionais associados ao S e S-PLUS, estatísticos e cientistas da computação. Atualmente o grupo R Core controla o código fonte de R. Em 2000, finalmente a versão 1.0.0 do R foi liberada ao público.
Sintaxe Estatística e Estruturas de Dados Avançadas
A essência técnica de R se revela em sua sintaxe estatística, projetada para tornar a análise e a modelagem de dados uma tarefa eficiente e expressiva. Operadores estatísticos integrados e funções especializadas conferem a R uma capacidade única de manipulação e exploração de conjuntos de dados complexos. As estruturas de dados especializadas, como data frames e listas, proporcionam uma base sólida para a manipulação de dados, elevando a linguagem a um patamar superior de flexibilidade e funcionalidade.
O Ecossistema de Pacotes: Um Arsenal de Poder Estatístico
O poder de R é amplificado pelo seu ecossistema robusto de pacotes especializados. Ferramentas como "ggplot2" para visualização e "dplyr" para manipulação de dados são apenas a ponta do iceberg de um vasto repositório que oferece soluções para uma gama diversificada de desafios estatísticos. Esse ecossistema dinâmico contribui significativamente para a riqueza funcional de R, posicionando-a como uma linguagem imprescindível para análises estatísticas avançadas.
Evolução Contínua: Da Academia ao Mundo Corporativo
A trajetória de R não é apenas uma história de criação, mas também de evolução constante. Desde seu status inicial como uma linguagem acadêmica, R floresceu e conquistou o mundo corporativo. O compromisso da comunidade global, composta por estatísticos e desenvolvedores, tem impulsionado melhorias contínuas. A linguagem passou por transições, como a migração da versão 2 para a 3, demonstrando a adaptabilidade da linguagem às demandas contemporâneas.
Desafios Técnicos e Adoção Generalizada
Apesar de suas notáveis conquistas, R enfrentou desafios. A curva de aprendizado inicial, especialmente para iniciantes, e as preocupações relacionadas ao desempenho em comparação com linguagens compiladas são aspectos a serem considerados. No entanto, sua adoção generalizada em ambientes acadêmicos e corporativos evidencia a confiança contínua na linguagem para lidar com as complexidades da estatística e ciência de dados.
Limitações
Por ser uma linguagem não tão recente, ela não possui suporte a gráficos dinâmicos e 3D e não faz um bom gerenciamento de memória física. Uma outra limitação é na hora de atualização da versão da sua IDE. Se você desejar instalar a versão mais recente, saiba que ela não substituirá a versão anterior, que deve ser desinstalada manualmente por você.
E onde conseguir o software R?
Basta você acessar o site oficial http://www.r-project.org, acessar o link ‘CRAN’ no lado esquerdo da tela, selecionar um dos endereços para fazer download, e selecionar o sistema operacional.
Conclusão: R - A Linguagem que Moldou a Ciência de Dados
Ao concluirmos nossa exploração, é inegável que R se destaca como uma força influente na arena da estatística computacional e ciência de dados. Sua história rica, intrinsecamente ligada à ambição acadêmica, e seus elementos técnicos refinados a colocam no epicentro da inovação estatística. R não é apenas uma linguagem; é um ecossistema vibrante, uma comunidade colaborativa e um instrumento poderoso para aqueles que buscam decifrar os intricados padrões dos dados. Em um mundo cada vez mais orientado por dados, R continua a ser o idioma que moldou e continuará a moldar a paisagem da ciência de dados moderna.
Referências
[1] Curso de Big Data Analytics com R e Microsoft Azure Machine Learning da Data Science Academy
Comentários