Big Data e ETL na prática: tudo que você precisa saber para dar um start em uma cultura Data Driven

Dados 29 de Ago de 2023

Analisando o case das eleições presidenciais dos EUA, vamos entender como os dados podem contribuir com  estratégias empresariais e conhecer o processo antes das análises e das dashboards.

*Texto de Felipe Lopes
Analista de CRM e Dados na Rocketseat


Hoje o mundo rodeado por tecnologia torna imprescindível o conhecimento sobre dados. Sabendo do volume de informações gerados dia após dia, compreender o Big Data permite que os profissionais programadores passem a lidar de forma eficaz com grandes quantidades e complexidade dos dados, desde a coleta, até a exploração e análise.

Se você é um programador, profissional da área de dados ou só quer entender mais sobre esse processo, esse texto é para você.

E se quiser saber mais sobre como uma das empresas que mais recebe dados dos brasileiros lida com a alta volumetria, dá uma olhada nesse podcast que gravamos com a Serasa:

Aqui, neste artigo, vamos falar sobre o case das eleições presidenciais dos EUA de 2016 para deixar nítido vários dos processos dentro do mundo dos dados. Vem comigo!


A disputa pela presidência dos EUA de 2016, entre Donald Trump e Hillary Clinton, foi marcada pelo escândalo de privacidade de dados envolvendo o Facebook e a empresa Cambridge Analytica, contratada pela equipe de Donald Trump. O caso acabou trazendo à tona, dentre várias discussões, a privacidade dos usuários e o uso do Big Data no mundo de hoje.

Big Data é um conceito que tem tomado notoriedade recentemente, visto que, por dia, são gerados cerca de 2,5 quintilhões de bytes de dados (2.500.000.000.000.000.000 de bytes).

Falar de Big Data não é falar simplesmente de um grande volume de dados. No termo, a palavra “Big” se conecta com os “4 V’s”; volume, variedade, velocidade e variabilidade. Isso quer dizer que lidar com Big Data é lidar com grandes volumes de dados com uma variedade e velocidade de mudança exponencial.


Complementando com uma definição do próprio Google:

“O Big Data é diferente dos recursos de dados típicos por causa da complexidade do volume e da necessidade de ferramentas avançadas de Business Intelligence para processá-los e analisá-los.”

O caso Trump e Cambridge Analytica se tornou um case notório mundialmente pela forma da construção de uma estratégia baseada em dados, trazendo à tona o Big Data e a Mineração de Dados, conceito que abordaremos em breve.

Foto de Mika Baumeister na Unsplash

No período pré-eleições 2016, a equipe do então candidato, Donald Trump, contratou a empresa Cambridge Analytica, especialista em análise de dados, para contribuir com a campanha presidencial do candidato.

Até então, essa seria uma movimentação considerada normal entre um candidato e a análise do seu possível público eleitor, mas o que gerou, de fato, tantos problemas para a própria empresa e para o Facebook, foi que a Cambridge Analytica teve, de forma ilegal, acesso a dados de milhões de usuários do Facebook através do aplicativo “This Is Your Digital Life”.

O app funcionava sem muitas suspeitas, mas enquanto o usuário preenchia um teste comportamental, ele também acabava coletando dados das interações desse usuário no Facebook, e assim traçava o perfil de personalidade de cada pessoa. Esse teste é chamado, pelos psicólogos, de “Big Five”.

Vale lembrar a importância da LGPD (Lei Geral de Proteção de Dados), que regula o tratamento de dados pessoais no Brasil, tornando-se imperativo para aqueles que lidam com esses dados entenderem suas implicações legais.

Além disso, aqueles que possuem contato com esses dados, principalmente os desenvolvedores, desempenham um papel fundamental na conformidade, sendo co-responsáveis pela segurança e privacidade dessas informações pessoais.

Com esses dados em mãos, a Cambridge Analytica conseguiu armazenar, organizar e analisar os dados (guarde essa sequência) para a criação de perfis psicográficos desses usuários, permitindo que a campanha de Trump direcionasse milhares de anúncios e mensagens específicas para eleitores com base em suas características, necessidades e interesses pessoais.

Por exemplo, uma das propostas mais genéricas do governo Trump estava relacionada à melhoria do sistema de saúde do país. Assim, criando os perfis psicográficos dos públicos, segmentando em grandes grupos e utilizando princípios de Growth para testagem de anúncios, eram propostas linguagens diferentes para cada grupo. Veja:

  • Um usuário classificado com o perfil de “Protetor” pode ter visto um anúncio que trazia tópicos sobre a importância de estar com seus amigos e de cuidar das pessoas que ama;
  • Para o perfil de uma “Mãe de família”, que foca no sentimental, pode ter sido veiculado um anúncio extremamente caloroso da recompensa de uma mãe ao proteger e cuidar da saúde do filho;
  • Já para um “Jovem trabalhador” o anúncio poderia ter ressaltado a questão financeira e o custo benefício com a diminuição de alguns gastos com a sua saúde.

Isso que você acabou de ver é que chamamos de “Hiperpersonalização”, mas o que você talvez não saiba ainda é que para colocar esse modelo em prática, além de uma grande base de dados, também precisamos encarar um processo importante para tratar e entender toda essa informação. Isso é o que chamamos de ETL (Extract, Transform and Load) e Data Mining, respectivamente.

O acrônimo ETL, traduzindo do inglês, é o processo no qual:

  1. Extraímos os dados de interesse das mais variadas fontes de dados;
  2. Transformamos os dados, limpado-os, formatando-os para que se adequem aos novos formatos de armazenamento e padronização;
  3. E, finalmente, carregamos esses dados em um ambiente destino, chamado de Data Warehouse (ou banco de dados), no qual vão estar prontos para serem consultados e analisados no processo de Data Mining.

Com os dados já disponíveis, limpos e com qualidade suficiente, começa o processo de Data Mining, que foca em descobrir informações úteis, padrões e conhecimentos ocultos nos grandes conjuntos de dados. O Data Mining envolve a aplicação de técnicas estatísticas, inteligência artificial e algoritmos de aprendizado de máquina para explorar os dados e identificar padrões relevantes. Ao analisar os dados históricos da empresa, chegamos em alguns padrões que demonstram regras e probabilidades. Esses padrões podem ser usados para fazer previsões, tomar decisões e entender melhor o comportamento dos dados.

Dados mal preparados ou com problemas de qualidade podem levar a resultados imprecisos ou conclusões errôneas durante a mineração de dados.

Por isso, desde o processo de extração, é necessário que o programador siga as boas práticas para tratamento de dados, afinal, descobrir que os dados estão sendo coletados da forma errada depois que o processo já se iniciou, pode dar uma bela dor de cabeça para corrigir tudo isso depois. Continue acompanhando o texto para ter dicas de como lidar com os dados que você coleta.

Veja uma definição complementar da Salesforce:

“Basicamente, a função do Data Mining é utilizar de grandes bases de dados para trazer insights sobre comportamentos que se repetem de maneira consistente. Isso se deve a elaboração de algoritmos que conseguem identificar padrões em meio a esses dados e estabelecer correlações entre eles.”
Foto de Brett Sayles: https://www.pexels.com/pt-br/foto/centro-de-dados-base-de-dados-banco-de-dados-entrada-4597280/


É como se a gente “passasse uma peneira nos dados até conseguir informações preciosas para o nosso modelo de negócios”, o que, nitidamente, é imprescindível para auxiliar nas tomadas de decisões das empresas hoje em dia.

Lidar com o Big Data é realmente um desafio diário, que requer treinamento e habilidades na área. Quanto maior o volume de informações a se coletar, organizar, armazenar e analisar, mais dificuldades você tem. No entanto, quanto mais dados de qualidade você tiver, mais assertivo podem ser suas conclusões e tomadas de decisão.

Foto de <a href="https://unsplash.com/pt-br/@lukechesser?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Luke Chesser</a> na <a href="https://unsplash.com/pt-br/fotografias/JKUTrJ4vK00?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>


Na era da informação, entender e praticar Big Data traz uma gigantesca vantagem competitiva para as empresas e também para os profissionais.

Se você quer estar na frente e entender mais como aplicar tudo isso na prática, dá uma olhadinha nas dicas que trouxemos a seguir para implantar na sua empresa e dar início (ou reforçar) a cultura Data Driven e a lidar com os dados de uma forma eficiente.

  1. Comprometimento da liderança: Comece pelo topo. A liderança deve demonstrar o compromisso com a cultura Data Driven e utilizar ativamente os dados em suas próprias decisões.
  2. Processo de ETL bem feito: Determine quais dados são relevantes para seus objetivos e estabeleça processos para coletá-los de maneira consistente e precisa. Escolha uma solução de armazenamento de dados que seja escalável, segura e organizada. Mantenha a qualidade dos dados verificando regularmente a precisão, integridade e consistência das informações.
  3. Segurança e privacidade: Garanta que os dados sejam protegidos de acordo com as regulamentações de privacidade relevantes e implemente medidas de segurança adequadas para evitar violações de dados.
  4. Análise e interpretação: Use ferramentas de análise para obter insights significativos dos dados. Isso envolve a identificação de padrões, tendências e relacionamentos que possam informar as decisões.
  5. Comunicação interna nítida: Comunique os resultados da análise de dados de forma clara e acessível para todas as partes interessadas. Visualizações, gráficos e relatórios bem elaborados podem ajudar a transmitir informações de maneira eficaz.
  6. Comunicar a importância dos dados: Eduque os funcionários sobre os benefícios de tomar decisões baseadas em dados, mostrando como isso leva a melhores resultados e insights mais precisos.
  7. Incentivar a experimentação: Promova uma cultura que encoraje a experimentação e o teste de hipóteses. Use os dados para avaliar os resultados e ajustar as estratégias conforme necessário.
  8. Tomada de decisões baseada em dados: Sempre que possível, tome decisões com base em evidências e análises, em vez de intuição ou suposições.
  9. Aprender com os erros: Aceite que nem todas as análises serão bem-sucedidas. Incentive a aprendizagem com os erros e adaptação das estratégias.

Agora é só começar a colocar em prática, continuar estudando e entender o porquê hoje os dados são vistos como o novo petróleo.

Marcadores