Wat is data lakehouse?


Een data lakehouse is een datamanagementarchitectuur die de beste eigenschappen van data lakes en data warehouses combineert. Het biedt de flexibiliteit, kostenefficiëntie en schaalbaarheid van data lakes, terwijl het ook het gegevensbeheer, de ACID-transacties en de structuurkenmerken van data warehouses levert.

relational_databases_hero

Dit maakt business intelligence (BI) en machine learning (ML) mogelijk voor alle soorten gegevens, inclusief gestructureerde, ongestructureerde en semigestructureerde gegevens. Door de mogelijkheden van beide systemen in één platform samen te voegen, kunnen datateams efficiënter gegevens benaderen en deze gebruiken zonder tussen meerdere systemen te hoeven wisselen.

Data lakehouse-architectuur

Een data lakehouse-architectuur combineert de beste kenmerken van data lakes en data warehouses in één enkel platform. Het bestaat doorgaans uit vijf lagen:

  • Ingestielaag: verantwoordelijk voor het in het data lakehouse binnenhalen van grote hoeveelheden gestructureerde, ongestructureerde en semigestructureerde gegevens uit verschillende bronnen
  • Opslaglaag: benut voordelige cloud object storage om alle soorten gegevens op te slaan, wat de flexibiliteit en schaalbaarheid van data lakes oplevert
  • Metagegevenslaag: beheert de metagegevens, zoals schemagegevens, data lineage en gegevensafkomst, waardoor de gegevens beter kunnen worden georganiseerd en beheerd
  • API-laag: biedt een uniforme interface voor toegang tot en verwerking van de gegevens; het ondersteunt verschillende querytalen, zoals SQL, en tools, zoals Python en notebooks
  • Consumptielaag: hiermee kunnen gebruikers analyses, machine learning en bewerkingen voor business intelligence uitvoeren op de gegevens, waardoor één end-to-end weergave van de gegevens wordt geboden

Door voor een gelaagde aanpak te kiezen om de mogelijkheden van data-lakes en data-warehouses te verenigen, kunnen organisaties gegevens efficiënter benaderen en gebruiken zonder tussen meerdere systemen te hoeven schakelen.

Kenmerken van een data lakehouse

Met data lakehouses kunnen structuren en schema’s, zoals die in een data warehouse worden gebruikt, toegepast worden op ongestructureerde gegevens, die typisch worden opgeslagen in een data lake. Dit betekent dat gegevensgebruikers sneller toegang hebben tot de informatie.

In vergelijking met een data-warehouse kan men een data-lakehouse goedkoop opschalen, omdat het integreren van nieuwe gegevensbronnen een geautomatiseerder proces is. Query's kunnen overal vandaan komen, met iedere tool gedaan worden en zijn niet beperkt tot applicaties die alleen gestructureerde gegevens kunnen verwerken.

Sterker nog, veel van de opvallende kenmerken van data lakehouses zijn er om de kloof tussen een data lake en een data warehouse te overbruggen. Enkele van deze belangrijke kenmerken zijn:

Icons/concept/Database/Database Created with Sketch.

Metagegevenslagen

Deze lagen helpen bij het organiseren en beheren van gegevens, waardoor deze eenvoudiger te vinden en te gebruiken zijn

Icons/concept/Database/Database SQL Created with Sketch.

Krachtige SQL-uitvoering

Dit maakt efficiënte query's en ophalen van gegevens mogelijk en biedt optimale toegang voor zowel data science als machine learning-tools

Ondersteuning voor diverse gegevenstypen

Data lakehouses kunnen gestructureerde, semigestructureerde en ongestructureerde gegevenstypen verwerken. Hierdoor kan een breed scala aan gegevenstypen en applicaties worden opgeslagen, geopend, verfijnd en geanalyseerd

Gelijktijdig lezen en schrijven

Meerdere gebruikers kunnen tegelijkertijd ACID-compliant transacties lezen en schrijven zonder dat de gegevensintegriteit in het gedrang komt

Icons/concept/Transfer Created with Sketch.

Minder gegevensverplaatsing

Door de beste kenmerken van data warehouses en data lakes te combineren kunnen data lakehouses de verplaatsing en redundantie van gegevens verminderen, wat leidt tot een efficiënter gebruik van resources

Icons/concept/Graph Created with Sketch.

Ondersteuning voor geavanceerde analyses

Data lakehouses zijn uitermate geschikt voor geavanceerde analytics en machine learning, omdat ze grote hoeveelheden data uit meerdere bronnen kunnen verwerken

Door deze kenmerken hoeft er minder vaak op meerdere systemen teruggegrepen te worden. Hierdoor beschikken teams over de meest volledige en actuele gegevens voor projecten op het gebied van data science, machine learning en bedrijfsanalyses.

Tot slot biedt een data-lakehouse een robuuster gegevensbeheer dan traditionele data-lakes of data-warehouses, wat de kwaliteit van de gegevens en compliance garandeert.

Voordelen van data lakehouses

Aan deze kenmerken zijn veel voordelen verbonden. Eenvoud, flexibiliteit en lage kosten zijn er een paar daarvan, omdat data lakehouses vergelijkbare gegevensstructuren en datamanagementfuncties implementeren als in een data warehouse, rechtstreeks op het soort goedkope opslag dat voor data lakes wordt gebruikt.

Een data lakehouse biedt de gestructureerde functies en mogelijkheden van data warehouses, terwijl het aanpassingsvermogen van data lakes behouden blijft. Dit hybride model is ook aanzienlijk kosteneffectiever dan conventionele data warehousing-oplossingen.

Organisaties zetten steeds vaker het data lakehouse-model in om de beperkingen te overwinnen die inherent zijn aan traditionele data warehouses en data lakes. Deze benadering biedt een evenwichtige oplossing die de sterke punten van gegevensopslag en datamanagementsystemen combineert.

Flexibiliteit is een ander belangrijk voordeel. Data lakehouses maken de verwerking van diverse gegevenstypen mogelijk, waaronder gestructureerde, semigestructureerde en ongestructureerde gegevens. Deze veelzijdigheid zorgt voor een breed scala aan toepassingen, variërend van standaard data analytics en business intelligence tot geavanceerdere toepassingen in machine learning, artificiële intelligentie en realtime gegevensstreaming.

Bovendien kunnen data lakehouses verder worden aangepast met populaire programmeertalen als Python en R, wat ze nog aantrekkelijker maakt voor organisaties.

Voorbeelden van een data lakehouse

Data-lakehouses worden door verschillende sectoren voor veel use cases gebruikt, omdat ze de beste functies van data-lakes en data warehouses kunnen combineren. Hier zijn enkele voorbeelden van de toepassingen van data-lakehouses:

Icons/concept/Server/Server Gear Created with Sketch.

Gezondheidszorg

Data lakehouses kunnen gegevens uit elektronische patiëntendossiers, medische apparaten en andere bronnen opslaan en analyseren. Hierdoor kunnen organisaties in de gezondheidszorg de patiëntenzorg en de volksgezondheid verbeteren.

Finance

Lakehouses kunnen tevens worden gebruikt om diverse gegevens afkomstig uit financiële transacties, risicomanagementsystemen en andere bronnen op te slaan en te analyseren. Financiële dienstverleners kunnen hiermee betere beslissingen nemen over investeringen en risicomanagement.

Icons/concept/Magnifying Glass/Magnifying Glass Check Created with Sketch.

Modernisering van data analytics

Data lakehouses kunnen worden gebruikt om bestaande datasystemen te moderniseren en daarmee de prestaties, het beheer en de kosteneffectiviteit ervan te verbeteren. Dit omvat de overstap van on-premises gegevensinfrastructuur naar de cloud, het offloaden van data warehouses en het activeren van nieuwe datamogelijkheden, zoals gegevensvirtualisatie en klantgerichte datatoepassingen.

Icons/concept/Cloud/Cloud Infinity Created with Sketch.

Realtime gegevensverwerking

Lakehouses ondersteunen zowel batch- als realtime gegevensverwerking, waardoor organisaties gegevens kunnen analyseren terwijl deze worden gegenereerd. Dit maakt realtime rapportering en analyse mogelijk, waardoor er geen aparte systemen meer nodig zijn voor realtime gegevenstoepassingen.

De essentie van dit brede scala aan toepassingen is het feit dat data lakehouses gestructureerde, halfgestructureerde en ongestructureerde gegevenstypen kunnen verwerken. Hierdoor kunnen organisaties een breed scala aan gegevenstypen en toepassingen opslaan, openen, verfijnen en analyseren, zoals IoT-gegevens, tekst, afbeeldingen, audio, video, systeemlogs en relationele gegevens.

Data lakehouses zijn goedkoop op te schalen, omdat de integratie van nieuwe gegevensbronnen geautomatiseerd is. Ze hoeven niet handmatig te worden aangepast aan de gegevensindelingen en het schema van de organisatie, wat tijd en middelen bespaart.

Data warehouse versus data lake versus data lakehouse

Al deze architecturen bieden andere functies en beantwoorden aan verschillende behoeften op het gebied van gegevensverwerking en -analyse. Inzicht in hun nuances is essentieel voor bedrijven die hun gegevens effectief willen inzetten.

Data Warehouses

Een datawarehouse is een gestructureerde opslag van gegevens, zorgvuldig georganiseerd en geoptimaliseerd voor query's en rapportage. Het is de basis van business intelligence: het biedt een gecentraliseerd platform waar gegevens uit verschillende bronnen, zoals ERP- en CRM-systemen, websites en sociale media worden geïntegreerd, getransformeerd en opgeslagen.

Deze structuur is met name geschikt voor het verbeteren van de rapportage- en analysemogelijkheden, het stroomlijnen van besluitvormingsprocessen door toegang te bieden tot historische gegevens en het verhogen van de efficiëntie bij de verwerking en analyse van gegevens.

Datawarehouses zijn echter niet zonder beperkingen. Ze ontberen vaak de flexibiliteit om ongestructureerde gegevens te verwerken, zoals sociale media en streaming data. De kosten van het onderhoud van een datawarehouse kunnen hoog zijn en er zijn inherente beveiligingskwesties, vooral wanneer het om gevoelige of bedrijfseigen informatie gaat. Bovendien kunnen compatibiliteitsproblemen ontstaan door de integratie van gegevens uit diverse bronnen met verschillende indelingen en afmetingen.

Data Lakes

Datalakes bieden daarentegen een flexibelere benadering van gegevensopslag. Het zijn enorme verzamelingen van ruwe, onbewerkte gegevens die in hun eigen indeling zijn opgeslagen. Deze architectuur is bedoeld om een breed scala aan gegevenstypen te verwerken – gestructureerd, semigestructureerd en ongestructureerd.

Het belangrijkste voordeel van datalakes ligt in hun vermogen om grote hoeveelheden data kosteneffectief op te slaan. Hierdoor zijn ze bijzonder geschikt voor machine learning en applicaties voor voorspellende analytics.

Ondanks deze voordelen zijn datalakes niet zonder uitdagingen. Ze kunnen moeilijk effectief te managen zijn en als ze niet goed georganiseerd zijn, kunnen ze uitgroeien tot wat algemeen ook wel "data swamps" wordt genoemd.

Slecht beheerde datalakes kunnen leiden tot problemen bij het ophalen van gegevens en bij de integratie met business intelligence-tools. Bovendien kan het gebrek aan consistente gegevensstructuren leiden tot inaccurate queryresultaten en kan de open aard van datalakes aanzienlijke uitdagingen voor gegevensbeveiliging opleveren.

Data Lakehouse

Een datalakehouse vertegenwoordigt die nieuwere, hybride aanpak, die de beste elementen van datawarehouses en datalakes combineert. Ze bieden een uniform platform voor gestructureerde, halfgestructureerde en ongestructureerde gegevens. Dit biedt de flexibiliteit van een datalake in de gestructureerde omgeving van een datawarehouse.

Deze architectuur is met name aantrekkelijk vanwege de kosteneffectiviteit en omdat er minder gegevens worden gedupliceerd. Het ondersteunt een breed scala aan tools voor business intelligence en machine learning. Vergeleken met traditionele datalakes zorgt dit voor beter gegevensbeheer en een betere gegevensbeveiliging.

Het is echter een relatief nieuw concept en daarom is het datalakehouse nog volop in ontwikkeling. Ze kunnen tot uitdagingen leiden, zoals minder functionaliteit in vergelijking met gespecialiseerdere systemen. Ze moeten nog verder worden ontwikkeld om hun potentieel volledig te realiseren.

De juiste keuze maken

Data-warehouses zijn ideaal voor organisaties die behoefte hebben aan robuuste, gestructureerde functies voor data analytics en business intelligence. Data-lakes zijn geschikter voor diegenen die een flexibele, kosteneffectieve oplossing nodig hebben voor het opslaan en analyseren van grote hoeveelheden verschillende typen data, met name voor machine learning-toepassingen. Data-lakehouses, als een combinatie van de twee, bieden een veelzijdige oplossing die aan een breed scala aan behoeften op het gebied van gegevensopslag en -analyse kan voldoen.

Het werkveld van big data blijft evolueren, dus zullen deze opslagoplossingen ook veranderen. Elke architectuur heeft zijn plek in het data-ecosysteem en de keuze welke architectuur gebruikt wordt, zal afhangen van de specifieke eisen, datatypen en strategische doelen van de organisatie. Inzicht in de sterke punten en beperkingen van elk is essentieel om een weloverwogen beslissing te nemen die aansluit bij de gegevensstrategie van de organisatie en de toekomstige groeiplannen.

public cloud data portfolio ovh

Een volledig portfolio aan services om uw gegevens te benutten

Naast onze reeks storage- en machine learning-oplossingen biedt OVHcloud een portfolio aan data analytics-services om moeiteloos uw gegevens te analyseren. Van gegevensinvoer tot gebruik: we hebben heldere oplossingen gebouwd die u helpen uw kosten te beheersen en snel te beginnen.

Data Processing OVHcloud

Snelle, eenvoudige gegevensanalyse met Apache Spark

Als u uw bedrijfsgegevens wilt verwerken, heeft u enerzijds een bepaald volume aan gegevens en anderzijds een query, in de vorm van een paar regels code, nodig. Met Data Processing implementeert OVHcloud binnen enkele minuten een Apache Spark-cluster om uw query te beantwoorden.

Data Platform Collect

Datamanager

Serverless data warehouse ontworpen voor Big Data-analytics.
Profiteer van een uitgebreide set vooraf gebouwde connectors om verbinding te maken met uw gegevens, ongeacht waar deze zich bevinden. In slechts enkele minuten kunt u verbinding maken met statische, high-frequency, realtime IoT's, interne bedrijfssystemen, externe gesyndiceerde of sociale mediagegevens.