Paradigma Lakehouse
Vamos começar por aqui com esse tema super legal e atual no universo de dados?
O paradigma Lakehouse tem sido falado bastante nos últimos dois anos. Sobre a sua origem, até onde tenho conhecimento surgiu com o time da Databricks.com e hoje é falado principalmente pelas clouds mais conhecidas (AWS, GCP e Azure).
Existem mais comumente dois grandes universos em dados:
1 - Data Warehouse: Como o próprio nome já sugere, trata-se de um armazém de dados, ou seja, várias áreas de assuntos que somadas se tornam o famosos e conhecido DW. O conceito se sustenta sobre tecnologias mais old school e conhecidas pelo seu nível de integridade.
Bancos de dados transacionais são bastante utilizados e o ACID (Atomicidade, Consistência, Isolamento e Durabilidade) garante o seu bom funcionamento e a qualidade do que passar pela estrutura.
Seu ponto fraco está atrelado ao fato de times como Data Science e Machine Learning não terem tantas oportunidades de implementações por limitações tecnológicas. Aqui o trabalho com dados semi ou/e não estruturados se torna complexo ou inviável.
Seu ponto forte está sem dúvidas relacionado a qualidade dos dados controlado por chaves PK (Primary Key) e FK (Foreign Key) e a fácil manipulação dos dados via GRUD (Create, Read, Update e Delete). Outro fator que influencia bastante é o fato da utilização do SQL como principal meio de consumo dos dados.
Geralmente ou em quase todas as situação este formato de trabalho se utiliza pouco código de programação, pois existem inúmeras ferramentas de ETL (Extract, Transform and Load) com bastante funcionalidades prontas, ou seja, low code.
2 - Data Lake: Trata-se de uma tema em dados já falado/utilizado há bastante tempo, alguns relatos que tenho conhecimento dizem que o tema já era discutido na década de 90 ou um pouco antes. Fato é, o conceito de Data Lake tomou uma proporção bem relevante no mundo de dados com o surgimento do Hadoop nos anos dois mil. O conceito de processamento distribuído ganhou força aqui e as tarefas de processamento de dados em larga escala se tornou uma realidade!
Vamos a alguns dos seus pontos fortes, um dos principais é o poder de processamento de grande volumes de dados. Existem algumas tecnologias dentro do seu ecossistema que possibilita isso. Outra característica interessante dentro dessas distribuições é o fato de poder trabalhar com todos os formatos de dados possíveis, estruturado, semi estruturado e não estruturado.
Algumas das desvantagens do big data é o fato da responsabilidade de forma integral de manipulação dos arquivos ficar com o engenheiro de dados, a ausência do ACID prejudica questões atreladas a qualidade dos dados. Quem aí é um pouco mais antigo em dados e já não ouviu a seguinte frase: “O Hadoop consegue processar um volume gigante de dados, mas podem ter perdas!”, pois bem…
O Lake House une os principais fatores/vatagens entre essas duas possibilidades no mundo de dados, que basicamente é, a qualidade e integridade dos dados do DW (Delta Lake) com a larga escala de processamento do Big Data (Spark) e a possibilidade de traablhar com formatos diferentes de dados.
Abaixo link com detalhes bem mais ricos e estruturado sobre o tema:
https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
Gostaria de agradecer por você ter chegado até aqui na leitura! Até o próximo News.
Abcs.,
Thiago Jatobá