Wat is big data?
Met voortdurend meer en alsmaar betere digitale hulpmiddelen tot onze beschikking genereren we steeds meer gegevens. Vroeger konden we de beperkte hoeveelheid gegenereerde informatie relatief eenvoudig met klassieke tools kwantificeren, analyseren en opslaan. Tegenwoordig moet een enorme massa gegevens opgeslagen en snel – vaak in realtime – verwerkt kunnen worden, om er optimaal gebruik van te maken. Voor big data-projecten zijn architecturen en infrastructuren nodig die speciaal voor dit doel zijn ontworpen. Cloud computing is in staat aan deze verwachtingen te voldoen.

Definitie van big data
Wanneer we het hebben over big data (in het Nederlands "massadata"), dan bedoelen we enorme hoeveelheden gegevens. In het dagelijks leven genereren veel van onze handelingen gegevens. Bij het gebruik van een applicatie of een website manipuleren we eveneens grote hoeveelheden gegevens. Dit volume is simpelweg niet te verwerken voor een persoon of met een klassieke analyse. Om het verzamelen en verwerken van deze gegevens te automatiseren, voeren onder meer particuliere bedrijven, overheidsinstanties, sociale netwerken, mobiele applicaties en onderzoeksinstituten big data-projecten uit.
Er zijn nieuwe tools geïntroduceerd waarmee deze gegevens opgeslagen en gedistribueerd verwerkt kunnen worden: Hadoop, Apache Spark, Kafka, Flink, MongoDB, enzovoorts. Het doel van big data is om data, die niet waardevol zijn als ze één voor één worden gebruikt, meerwaarde te geven. Met de opkomst van deze instrumenten en toepassingen zijn nieuwe beroepen ontstaan: data-analisten, data engineers, data scientists, gespecialiseerde big data-consultants... Het is de taak van deze mensen om bedrijven operationeel te begeleiden.
Big data volgens de 4 v's
Om beter te begrijpen wat big data is, moeten we de drie basale eigenschappen gedetailleerd beschrijven: volumineus, vlug en verschillend. Een vierde punt is ook belangrijk als we het hebben over het verwerken van grote hoeveelheden data: vertegenwoordigen ze de werkelijke situatie?
- Volumineus
Elke onderneming of organisatie genereert informatie. De vele gegevensbronnen en de noodzaak deze te kwantificeren en te beheersen, leiden ertoe dat steeds grotere hoeveelheden gegevens moeten worden opgeslagen. Hoewel de meeste verzamelde gegevens van lage kwaliteit zijn, worden ze door structureren en combineren tot waardevolle data.
De infrastructuur die voor een big data-project wordt gebruikt, moet daarom over een zeer grote opslag beschikken om het hoofd te bieden aan de instroom van gegevens, die exponentieel kan toenemen naarmate het project zich ontwikkelt.
- Vlug
Opgeslagen informatie kan snel verouderd raken als deze niet op tijd wordt verwerkt. De snelheid waarmee gegevens worden verzameld en verwerkt, is van cruciaal belang. Daarom zijn realtime analysetools nodig. Traditionele tools kunnen gegevens alleen achteraf en met heel weinig combinatiemogelijkheden verwerken. Daarom bieden de nieuwe, op big data gerichte tools veel krachtigere analyse- en verwerkingsmethoden om de gegevens vliegensvlug te benutten.
- Verschillend
Hoe diverser de informatiebronnen zijn, des te kwalitatiever zal de daaruit voortvloeiende analyse zijn. Deze variatie leidt ook tot een groot aantal verzamelde bronformaten. Er wordt zowel van tijdgebonden, geografische en transactiegegevens gebruik gemaakt, als van gegevens die uit hun context gehaald zijn (audio, video en tekst). Het vermogen om met big data-verwerking een meerwaarde te creëren berust op de mogelijkheden om deze gegevens te combineren: productverbetering, een dienst ontwikkelen, klanten beter begrijpen of noodzakelijke toekomstige acties voorspellen.
-
Vertegenwoordigend
Naast de wijze waarop deze grote hoeveelheid gegevens opgeslagen en voldoende snel verwerkt wordt, rijst een andere vraag: zijn ze representatief?
Het verwerken van gegevens binnen een big data-kader is namelijk een dure operatie, die van groot belang is voor de toekomst van een bedrijf. Als de gebruikte gegevens onjuist of onnauwkeurig zijn, zal het resultaat van deze gegevensanalyse dat ook zijn. Dat kan dan tot beslissingen leiden die de werkelijkheid niet weerspiegelen.
De verschillende use cases voor big data
- Productontwikkeling
Met voorspellende analyse en datavisualisatie kunnen we de gegevens rondom een product benutten om beter inzicht krijgen in de behoeften van kopers en hoe daaraan voldaan kan worden. De verbetering van bestaande producten en de ontwikkeling van nieuwe producten komen dan zo dicht mogelijk bij de werkelijkheid.
- Voorspellend onderhoud uitvoeren
Het anticiperen op hardwareveroudering en het voorspellen van mechanische storingen is heel belangrijk voor de industrie. Het gebruik van voorspellende analyses kan bijdragen aan het vervangen van een machine die het einde van zijn levensduur nadert of bijna defect is. Dit leidt tot aanzienlijke besparingen op bedrijfsniveau.
- Toekomstige behoeften voorspellen
Voorspellen waar men de komende jaren behoefte aan zal hebben, kan allerlei kanten op gaan. Big data kan daarbij van pas komen omdat, met behulp van onderbouwde gegevens, de te volgen strategieën op korte, middellange en lange termijn kunnen worden voorspeld. Het is een belangrijk hulpmiddel voor besluitvorming.
- Fraude aanpakken
Door hun omvang worden middelgrote en grote ondernemingen geconfronteerd met steeds geraffineerdere pogingen tot fraude. Deze fraude, die moeilijk te ontdekken is omdat ze ondergesneeuwd raakt in de stroom van digitale gegevens, is echter gebaseerd op patronen en repetitieve handelingen die kunnen worden opgespoord. Het analyseren van verdachte gedragingen maakt het daarom mogelijk deze fraudepogingen beter te detecteren en te bestrijden.
- Gegevens voorbereiden voor machine learning
Voor het automatisch leren door artificiële intelligentie zijn gegevens nodig. In theorie geldt: hoe meer gegevens er zijn, hoe nauwkeuriger het resultaat van het leerproces. Big data kan gegevens, die aan de algoritmen van machine learning aangeleverd worden, opschonen, kwalificeren en structureren.

De technologie achter big data
- Apache Hadoop
Dit is een opensource-framework waarmee enorme hoeveelheden data door applicaties verwerkt kunnen worden. Hadoop kan petabytes informatie opslaan, dus zeer grote hoeveelheden, door ze over de verschillende nodes van een cluster te verdelen. De gegevens kunnen doelmatig worden opgevraagd dankzij de MapReduce-architectuur.
Deze software fungeert als datastore, waarmee u meer haalt uit uw gegevens. Hardwarestoringen, die zich op een deel van de infrastructuur kunnen voordoen, zijn geen probleem voor dit framework. Het leidt dus niet tot gegevensverlies of een gestopte activiteit.
- Apache Spark
Spark, een ander big data-framework, wordt gebruikt voor het verwerken van statische of realtimegegevens. Door zijn data-architectuur werkt het sneller (kortere verwerkingstijd) dan MapReduce, het verwerkingssysteem van Hadoop. Spark heeft geen functie om gegevens gedistribueerd op te slaan, maar kan samen met Hadoop of met S3 object storage-oplossingen worden gebruikt om meer uit uw gegevens te halen.
- MongoDB
De traditionele werking van gestructureerde relationele databases is minder geschikt om de grote hoeveelheid gegevens, die big data met zich meebrengt, te verwerken. Daarom is MongoDB, een NoSQL Distributed Database Management System, gemaakt. Door opnieuw te definiëren hoe een database gegevens opslaat en levert, kan informatie in een big data-project perfect en ultrasnel verwerkt worden.
- Python
Python, dat beschouwd wordt als de meest gebruikte taal voor machine learning, is ideaal voor uw big data-oplossing. Python is zeer populair en compatibel met de meeste besturingssystemen. Het wordt door ontwikkelaars en data scientists gebruikt vanwege het gebruiksgemak en de tijdwinst bij het maken van algoritmen. Er zijn vele library’s die het werk van ontwikkelaars op het gebied van data science, data-analyse, datamanagement en nog veel meer vergemakkelijken.
Bekijk onze big data- en cloud-oplossingen voor al uw omvangrijke projecten:
Big data in het hart van de digitale transformatie
Er zijn talrijke ongestructureerde gegevensbronnen met allerlei typen gegevens (webactiviteit, verbonden objecten, consumptiegewoonten, CRM, enzovoorts). Met een digitale marketingstrategie kunnen bedrijven gegevens voor analytische doeleinden gebruiken om meer uit deze onbewerkte gegevens te halen. Een data-analist kan de beschikbare gegevens interpreteren en deelnemen aan het besluitvormingsproces, bijvoorbeeld met onderwerpen als klantrelatie of klantenkennis. Het modelleren van uw big data-architectuur en deze in uw digitale transformatie integreren met behulp van oplossingen voor data-analyse, versterkt de besluitvormingsketen.
Kunstmatige intelligentie en big data
Artificiële intelligentie heeft, net als de mens, behoefte aan informatie. Hoe meer gegevens beschikbaar zijn voor het leren, hoe hoger de te verwachten effectiviteit van AI. Voor een goede werking van het machinealgoritme kunnen grote hoeveelheden gegevens van verschillende verzamelpunten nodig zijn.