Carreira de um Cientista de Dados
Como iniciar a carreira de Cientista de Dados com Python?
Por que Python?
Um dos maiores motivos pelos quais o Python é considerado a linguagem padrão para a ciência de dados são seus poderosos pacotes. NumPy
, Pandas
e Matplotlib
são três pacotes principais para análise de dados que vou falar aqui.
NumPy
NumPy nos dá estruturas de dados, chamadas arrays, que tornam o trabalho com dados numéricos mais simples e mais rápido se tívessemos que usar o Python (ou qualquer outra linguagem) puro.
Pandas
Pandas nos ajuda a manipular e analisar dados com seus Data Frames super poderosos com várias funções importantes.
Matplotlib
Matplotlib é um pacote para construir visualizações de dados. Com ele podemos fazer desde gráficos simples com poucas linhas de código e também criar imagens profissionais.
Trabalho do Cientista de Dados
Uma coisa que não falta é trabalho para um bom Cientista de Dados.
Sabe quando o YouTube te sugere novos vídeos ou o Facebook te mostra novos posts na sua timeline e eles são a sua cara? Isso foi um trabalho de um cientista de dados.
Mas a análise de dados não se resume apenas às maiores empresas do mundo.
A OkCupid, por exemplo, usou a análise de dados para prever pessoas que possam formar bons pares românticos e ainda estudou as melhores perguntas para se fazer no primeiro encontro.
O Walmart vê o histórico de compras e os posts dos clientes nas redes sociais para saber quais os produtos oferecer em maior quantidade e fazer promoções.
Já no mundo dos esportes, o americano Bill James é famoso por aplicar a análse de dados ao Beisebol. Ele a usou para saber quais jogadores teriam um melhor aproveitamento e para prever desempenhos futuros.
A indústria farmacêutica tem usado o aprendizado de máquina para prever quais compostos químicos tem mais chances de gerar remédios eficazes.
São tantos exemplos que merecia uma série de posts só para isso.
Processo da Análise de Dados
O Processo de Análise de Dados nem sempre é linear, portanto os passos abaixo não é, necessariamente, uma ordem a ser seguida. Cada passo está bem entrelaçado com todos os outros.
Questionar
Geralmente, o Processo de análise de dados começa com questionamentos.
Você tanto pode receber dados e fazer perguntas com base nele ou fazer perguntas primeiro e coletar dados com base nisso mais tarde. Em ambos os casos, boas perguntas te ajudam a se concentrar em partes relevantes de seus dados e direcionam sua análise para insights significativos.
O que estamos tentando descobrir com esses dados? Que problema estamos tentando resolver?
Estamos na era da informação onde podemos lidar com muitos dados de formas variadas. A pergunta certa ajuda a se concentrar nas partes relevantes dos dados e direcionar sua análise para o que é realmente importante.
Preparar
O analista obtém os dados de que precisa em um formulário com o qual pode trabalhar em três etapas: reunir, avaliar e limpar.
Em outras palavras, depois de reunir (ou coletar) os dados necessários para responder às perguntas, o analista avalia esses dados para identificar problemas na qualidade ou na estrutura deles e, finalmente, limpa-os seja modificando, substituindo ou até removendo informações para garantir que o conjunto de dados seja da mais alta qualidade e mais bem-estruturado possível.
Explorar
Este passo é onde o analista busca explorar e aumentar seus dados para maximizar o potencial de sua análise, visualização e modelos.
Explorar envolve encontrar padrões nos dados, visualizar relações e saber com o que estamos trabalhando. Ao fazer isso, pdemos ter a necessidade de remover valores discrepantes (outliers) e/ou criar recursos novos e mais descritivos a partir dos dados em mãos. Também conhecido como “engenharia de recursos”.
Modificar e projetar bem os dados e de forma criativa, pode aumentar significativamente a qualidade da análise.
Muitas vezes, é inevitável voltar aos passos anteriores. Seja porque descobrimos novos problemas nos dados e precisamos avaliar e limpar de uma forma diferente ou descobrir padrões interessantes e inesperados e decidir refinar as questões.
Concluir
Se os passos de preparação e exploração tiverem sido bem feitos, a conclusão não deverá ser difícíl.
Por exemplo: que produtos costumam ser mais vendidos em determinada época do ano ou até hora do dia? Um escola pode prever quais alunos tem maiores chances de ser reprovados e tentar ajudá-los antecipadamente.
Comunicar
Você geralmente precisa (e quer) compartilhar seus resultados. Ou, se seu objetivo final é construir um sistema, você geralmente precisa compartilhar o que você criou, explicar como chegou às decisões de design e relatar o desempenho.
Há muitas maneiras de comunicar os resultados: relatórios, apresentações de slides, postagens de blogs, e-mails, apresentações ou até mesmo conversas.
A visualização de dados será sempre muito valiosa.