O que é um data lakehouse?


Um data lakehouse é uma arquitetura de gestão de dados que combina as melhores características dos data lakes e dos data warehouses. Oferece a flexibilidade, a relação custo/eficácia e a escalabilidade dos data lakes, ao mesmo tempo que proporciona a gestão de dados, as transações ACID e as características de estrutura dos data warehouses.

relational_databases_hero

Isto possibilita a Business Intelligence (BI) e o Machine Learning (ML) em todos os tipos de dados, incluindo dados estruturados, não estruturados e semiestruturados. Ao fundirem as capacidades de ambos os sistemas numa plataforma única, as equipas de dados podem aceder e utilizar os dados de modo mais eficiente sem terem de mudar de sistema.

Arquitetura de um data lakehouse

Uma arquitetura de data lakehouse combina as melhores características dos data lakes e dos data warehouses numa só plataforma. Consiste normalmente em cinco camadas:

  • Camada de ingestão: responsável pela ingestão de grandes volumes de dados estruturados, não estruturados e semiestruturados de diversas fontes no data lakehouse
  • Camada de armazenamento: aproveita o Cloud Object Storage de baixo custo para armazenar todos os tipos de dados, oferecendo a flexibilidade e a escalabilidade dos data lakes
  • Camada de metadados: gere os metadados, como a informação de esquema, a linhagem e a proveniência dos dados, permitindo uma melhor organização e governança
  • Camada de API: fornece uma interface unificada para o acesso e tratamento de dados, suportando várias linguagens de consulta (como o SQL) e ferramentas (por exemplo, Python e notebooks)
  • Camada de consumo: permite aos utilizadores realizar tarefas de análise, de Machine Learning e de Business Intelligence sobre os dados, fornecendo uma visão única e completa dos dados

Ao optar por uma abordagem em camadas com vista a unificar as capacidades dos data lakes e dos data warehouses, os data lakehouses permitem que as empresas acedam e utilizem os dados de forma mais eficiente, sem terem de mudar de sistema.

Funcionalidades de um data lakehouse

Os data lakehouses possibilitam que a estrutura e o esquema, como os utilizados num data warehouse, sejam aplicados a dados não estruturados do tipo normalmente armazenado num data lake. Isto significa que os utilizadores podem aceder às informações mais rapidamente.

Em comparação com um data warehouse, um data lakehouse não é dispendioso em termos de escalabilidade, uma vez que a integração de novas fontes de dados é um processo mais automatizado. As consultas podem partir de qualquer local e através de qualquer ferramenta, e não estão limitadas a aplicações que só conseguem tratar dados estruturados.

De facto, muitas das características mais marcantes dos data lakehouses existem para fazer a ponte entre um data lake e um data warehouse. Entre algumas das principais funcionalidades incluem-se:

Icons/concept/Database/Database Created with Sketch.

Camadas de metadados

Estas camadas ajudam na organização e gestão dos dados, facilitando a sua localização e utilização

Icons/concept/Database/Database SQL Created with Sketch.

Execução SQL de alto desempenho

Isto permite consultas eficientes e recuperação de dados, bem como um acesso otimizado para ferramentas de Data Science e Machine Learning

Suporte para os mais diversos tipos de dados

Os data lakehouses podem lidar com tipos de dados estruturados, semiestruturados e não estruturados, permitindo armazenar, aceder, refinar e analisar uma vasta gama de tipos de dados e aplicações.

Leitura e escrita simultâneas

Vários utilizadores podem ler e escrever simultaneamente transações compatíveis com ACID, sem comprometer a integridade dos dados

Icons/concept/Transfer Created with Sketch.

Redução do movimento de dados

Ao combinar as melhores características dos data warehouses e dos data lakes, os data lakehouses podem reduzir a circulação e a redundância de dados, permitindo uma utilização mais eficiente dos recursos

Icons/concept/Graph Created with Sketch.

Suporte para análises avançadas

Os data lakehouses são adaptados para análises avançadas e Machine Learning, pois podem lidar com grandes quantidades de dados a partir de várias fontes

Estas funcionalidades reduzem a necessidade de acesso a vários sistemas, garantindo que as equipas dispõem dos dados mais completos e atualizados para projetos de Data Science, Machine Learning e Business Analytics.

Por fim, um data lakehouse oferece uma governança dos dados mais robusta do que os data lakes ou os data warehouses tradicionais, garantindo a qualidade e a conformidade dos dados.

Vantagens dos data lakehouses

Há amplas vantagens associadas a esses recursos. A simplicidade, a flexibilidade e o baixo custo são três delas, já que os data lakehouses implementam estruturas de dados e funcionalidades de gestão de dados semelhantes às de um data warehouse, diretamente no tipo de armazenamento de baixo custo utilizado para os data lakes.

Um data lakehouse oferece as características e capacidades estruturadas dos data warehouses, ao mesmo tempo que mantém a capacidade de adaptação dos data lakes. Este modelo híbrido também é muito mais económico do que as soluções convencionais de Data Warehousing.

As organizações recorrem cada vez mais ao modelo do data lakehouse, de modo a superar as limitações inerentes aos data warehouses e data lakes tradicionais. Esta abordagem oferece uma solução equilibrada que combina as vantagens dos sistemas de armazenamento e de gestão de dados.

A flexibilidade é outro benefício fundamental. Os data lakehouses permitem o processamento de diferentes tipos de dados, incluindo dados estruturados, semiestruturados e não estruturados. Esta versatilidade suporta uma vasta gama de aplicações, que vão desde Data Analytics e Business Intelligence até utilizações mais avançadas em Machine Learning, inteligência artificial e streaming de dados em tempo real.

Além disso, os data lakehouses permitem a personalização, utilizando linguagens de programação populares como Python e R, o que aumenta ainda mais a sua atratividade junto das organizações.

Exemplos de um data lakehouse

Os data lakehouses estão a ser adotados em várias indústrias para muitos casos de uso, devido à sua capacidade de combinar as melhores características dos data lakes e dos data warehouses. Veja alguns exemplos de uso de um data lakehouse:

Icons/concept/Server/Server Gear Created with Sketch.

Saúde

Os data lakehouses podem armazenar e analisar dados de registos de saúde eletrónicos, de dispositivos médicos e de outras fontes, ajudando instituições da área da saúde a melhorar os cuidados ao doente e a saúde da população.

Finanças

Da mesma forma, os data lakehouses podem ser usados para armazenar e analisar diversos dados de transações financeiras, de sistemas de gestão de risco e de outras fontes, ajudando organizações de serviços financeiros a tomar melhores decisões de investimento e gestão de risco.

Icons/concept/Magnifying Glass/Magnifying Glass Check Created with Sketch.

Modernização de Data Analytics

Os data lakehouses podem ser usados para modernizar sistemas de dados existentes, melhorando o seu desempenho, gestão e relação custo-eficácia. Isto inclui a transição para a cloud de uma infraestrutura de dados local, o descarregamento de data warehouses e a ativação de novas capacidades de dados, como a virtualização de dados e as aplicações de dados voltadas para o cliente.

Icons/concept/Cloud/Cloud Infinity Created with Sketch.

Processamento de dados em tempo real

Os data lakehouses suportam o processamento de dados em tempo real e em batch; assim, as organizações podem analisar os dados à medida que estes são gerados. Este facto permite relatórios e análises em tempo real, eliminando a necessidade de sistemas separados dedicados ao serviço de aplicações de dados em tempo real.

No núcleo deste vasto conjunto de aplicações encontra-se o facto de os data lakehouses poderem lidar com dados estruturados, semiestruturados e não estruturados, permitindo às organizações armazenar, aceder, refinar e analisar uma vasta gama de tipos de dados e aplicações, tais como dados IoT, textos, imagens, áudio, vídeo, logs de sistema e dados relacionais.

Os data lakehouses são pouco dispendiosos de escalar porque a integração de novas fontes de dados é automatizada. Não têm de corresponder manualmente aos formatos de dados e esquemas da organização, o que poupa tempo e recursos.

Data warehouse vs. data lake vs. data lakehouse

Cada uma destas arquiteturas oferece funcionalidades distintas e responde a necessidades diferentes no domínio do processamento e da análise de dados. A compreensão das suas nuances é essencial para as empresas que procuram explorar os seus dados de forma eficaz.

Data warehouses

Um data warehouse é um repositório estruturado de dados, meticulosamente organizado e otimizado para consultas e relatórios. É a base do Business Intelligence e fornece uma plataforma centralizada onde os dados de várias fontes, como os sistemas ERP e CRM, os sites e as redes sociais, são integrados, transformados e armazenados.

Esta estrutura é particularmente adequada para melhorar as capacidades de elaboração de relatórios e de análise, para racionalizar os processos de tomada de decisões através do acesso a dados históricos, e para aumentar a eficiência no tratamento e análise de dados.

No entanto, os data warehouses não estão isentos de limitações. Muitas vezes, carecem de flexibilidade para lidar com dados não estruturados, como dados das redes sociais e de streaming. O custo de manutenção de um data warehouse pode ser elevado, e existem preocupações de segurança inerentes, especialmente quando se trata de informações sensíveis ou exclusivas. Além disso, podem surgir problemas de compatibilidade devido à integração de dados de diversas fontes com diferentes formatos e medições.

Data lakes

Os data lakes, por outro lado, oferecem uma abordagem mais flexível ao armazenamento de dados. Trata-se de vastos pools de dados brutos, não processados, armazenados no seu formato nativo. Esta arquitetura foi concebida para gerir uma vasta gama de tipos de dados: estruturados, semiestruturados e não estruturados.

A principal vantagem dos data lakes reside na sua capacidade de armazenar volumes maciços de dados de forma rentável, o que os torna particularmente adaptados a aplicações de Machine Learning e de análise preditiva.

Apesar destas vantagens, os data lakes não deixam de apresentar desafios. Podem ser difíceis de gerir eficazmente e, se não estiverem devidamente organizados, podem transformar-se no que é coloquialmente conhecido como «data swamps» (pântanos de dados).

A má gestão dos data lakes pode originar problemas no que diz respeito à recuperação de dados e à integração com ferramentas de Business Intelligence. De resto, a falta de estruturas de dados consistentes pode traduzir-se em resultados de consultas imprecisos, e a natureza aberta dos data lakes pode colocar desafios significativos em termos da segurança dos dados.

Data lakehouses

Os data lakehouses representam uma nova abordagem híbrida que combina os melhores elementos dos data warehouses e dos data lakes. Oferecem uma plataforma unificada para dados estruturados, semiestruturados e não estruturados, enquanto proporcionam a flexibilidade de um data lake com o ambiente estruturado de um data warehouse.

Esta arquitetura é particularmente apelativa pela sua relação custo/eficácia e pela redução da duplicação de dados. Suporta uma vasta gama de ferramentas de Business Intelligence e de Machine Learning, oferecendo uma melhor governança e segurança de dados em comparação com os data lakes tradicionais.

Contudo, tratando-se de um conceito relativamente novo, os data lakehouses continuam a evoluir. Podem apresentar desafios em termos de funcionalidade reduzida em comparação com sistemas mais especializados, e necessitam de um maior desenvolvimento para realizar plenamente o seu potencial.

Fazer a escolha certa

Os data warehouses são ideais para organizações que requerem capacidades robustas e estruturadas de análise de dados e de Business Intelligence. Os data lakes são mais adequados a quem necessita de uma solução flexível e económica para armazenar e analisar grandes volumes de diferentes tipos de dados, em particular no caso de aplicações de Machine Learning. Os data lakehouses, que são uma combinação de ambas as estruturas, oferecem uma solução versátil capaz de responder a uma ampla gama de necessidades de armazenamento e análise de dados.

À medida que o campo do Big Data continua a evoluir, o mesmo acontece com estas soluções de armazenamento. Cada arquitetura tem o seu lugar no ecossistema de dados, e a escolha da que será utilizada depende dos requisitos específicos, dos tipos de dados e dos objetivos estratégicos da organização. É essencial compreender os pontos fortes e fracos de cada uma, para tomar uma decisão informada que esteja em sintonia com a estratégia de dados e os planos de crescimento futuro da organização.

public cloud data portefolio ovh

Uma gama completa de serviços para explorar os seus dados

Aliada às nossas múltiplas soluções de armazenamento e Machine Learning, a OVHcloud oferece-lhe uma gama de serviços Data Analytics para analisar facilmente os seus dados. Desde a recolha até à manipulação dos dados, construímos ofertas claras que lhe permitem começar rapidamente, controlando os custos.

Data Processing OVHcloud

Análise de dados simples e rápida com o Apache Spark

Quando deseja processar os dados do seu negócio, tem um determinado volume de dados num local, e uma dúvida noutro, sob a forma de algumas linhas de código. Com o Data Processing, a OVHcloud implementa, em poucos minutos, um cluster Apache Spark para responder à sua dúvida.

Data Platform Collect

Data manager

Warehouse sem servidor concebido para análise de Big Data.
Tire partido de um conjunto exaustivo de conectores pré-construídos para aceder aos seus dados, independentemente de onde sejam armazenados. Conecte-se a dados estáticos, de alta frequência, em tempo real, de IoT, de sistemas empresariais internos, sindicados externamente ou de redes sociais em apenas alguns minutos.