Entenda mais sobre o conceito cada vez mais usado no mundo da tecnologia e a importância de uma boa governança de dados. 

Nos dias atuais, está cada vez mais evidente a transformação pela qual a sociedade e os negócios estão passando, na qual o valor dos dados vem crescendo em um ritmo acelerado para as marcas. Uma comparação ganhou força para ilustrar esse cenário: os dados são o novo petróleo. A frase é repetida e apoiada por grandes executivos e entusiastas da transformação digital. Para o CEO da Mastercard, Ajay Banga, a diferença entre os dois é que, diferentemente dos dados, um dia o petróleo vai acabar.

Nesse contexto, acredita-se que a importância dos dados deve apenas aumentar ao longo dos próximos anos. Diante de tal realidade, as empresas estão começando a sentir a necessidade de se entender e ter soluções de armazenamento de dados, tais como Data Lake e Data Warehouse. Nesse artigo vou explicar o que você precisa saber sobre os dois.

Dados estruturados e não estruturados 

Para início de conversa, acredito ser essencial apresentar a diferença entre dados estruturados, semiestruturados e não estruturados, afinal, essa é uma das grandes diferenças entre o Data Lake e o Data Warehouse.

Dados estruturados são dados organizados para futura recuperação, com uma estrutura rígida. Como se houvesse etiquetas, as linhas e colunas identificam diversos pontos sobre aquela informação e tornam seu processo de busca e recuperação bem simplificado e até automatizado. Não são a maior parcela dos conteúdos produzidos, mas são os melhores para tirarem conclusões e fazerem processos fluírem. Alguns exemplos de dados estruturados são:

  • Planilhas de Excel; 
  • Bancos de Dados; 
  • Arquivos CSV.

Quando não é possível identificar uma organização clara dos dados armazenados, conclui-se que estes são dados não estruturados. Documentos de texto, por exemplo, não conseguem ser vistos em toda sua amplitude, já que é inviável classificar cada palavra do texto e relacioná-la a contextos, pessoas e locais específicos. Isso fica ainda pior nos casos de vídeos, áudios e textos com emoções e sentimentos compartilhados em redes sociais. Exemplos de dados não estruturados:

  • Dados de redes sociais: Posts, Likes, Tweets; 
  • Mídia: arquivos de MP3, fotos digitais; 
  • Arquivos de vídeo e de áudio; 
  • Arquivos HTML; 
  • E-mails.

Já os dados semiestruturados são aqueles com estruturas flexíveis, ou seja, cada campo de dado possui uma estrutura, mas não existe uma imposição de formato. Exemplos:

  • Arquivos XML; 
  • Arquivos JSON; 
  • Arquivos RDF. 

Agora que entendemos a diferença entre os três tipos de dados, vamos ao que interessa!

Data Lake x Data Warehouse 

Data Lake é um repositório onde novos dados podem entrar sem barreiras e qualquer tipo de dado e quaisquer formas de se utilizar os dados podem residir: planilhas, dados em tempo real, arquivos de texto, arquivos de vídeo, entre outros. Ele armazena dados não tratados em seu formato bruto, incluindo dados estruturados, semiestruturados e não estruturados.

Já o Data Warehouse armazena apenas os dados estruturados, ou seja, tratados, padronizados e higienizados, e não esse aglomerado de informações de formatos e tamanhos diferentes. Ao contrário do Data Lake, para entrar no Warehouse as informações passam por um processo de tratamento para que apresentem uma visão mais padronizada e para que já seja definida o tipo de análise que será feita no dado.

O Data Warehouse tem sido a base para aplicações de Business Intelligence nas últimas décadas, mas essa estratégia não tem se mostrado eficiente no mundo do Big Data, já que agora os dados têm como fonte não apenas os bancos de dados internos da empresa, mas as mais variadas fontes, como mídias sociais, bancos de dados externos, arquivos, imagens e até cliques em um website. Por isso, se torna muito complicado, para não dizer impossível, definir o tipo de análise que será feita antes de armazenar os dados. É exatamente aí que o Data Lake começa a fazer sentido.

Entretanto, dado essa liberdade de entrada de dados, o Data Lake pode sofrer com uma falta de estruturação. Para evitar que seu Data Lake vire um Data Swamp, é preciso ter uma governança de dados, que vem para estruturar e gerenciar as informações que residem no Lake, deixando-as mais acessíveis e valiosas.

A importância de se ter uma governança de dados 

Uma governança aliada à catalogação deixa o Data Lake com águas cristalinas repletas de informações de fácil consumo, análise e uso. O sistema de catalogação une as informações através da criação de uma linguagem comum, que inclui conjuntos de dados, glossários, relatórios, métricas, modelos e dashboards. Essa linguagem unificada garante um melhor entendimento dos dados em termos de negócios e facilita a inovação e geração de melhores resultados.

Agora, os dados podem ser encontrados e adquiridos em uma localização central usando termos conhecidos e filtros que limitam os resultados para encontrar a informação desejada.

Para extrair o máximo de seus dados, é preciso mais do que apenas coletá-los em um Data Lake. Esses dados precisam ser consistentes, claros e, o mais importante, catalogados. Uma governança de dados bem feita e aliada à catalogação fará com que seu Data Lake passe de um simples repositório para uma ferramenta dinâmica e um espaço de trabalho colaborativo que vai impulsionar a transformação digital da sua empresa.