Data lake: alleen omdat het kan?

Het is een bekende discussie onder bergbeklimmers. Als hen gevraagd wordt waarom ze eigenlijk een berg willen beklimmen dan vinden ze dat een rare vraag. Voor hen is het duidelijk: je beklimt een berg omdat de berg er is. Een van de fraaiste antwoorden vind ik: “gewoon omdat het kan”.

Ik hoor steeds vaker bij organisaties dat ze graag een data lake willen aanleggen. Als belangrijkste drijfveer hoor ik dan: “er komt zoveel data beschikbaar binnen en buiten onze organisatie, laten we het in ieder geval bij elkaar brengen”. Op zich geen gekke gedachte, het is een manier van omgaan met grote hoeveelheden data. Toch is het oppassen geblazen, want soms heb ik het idee dat we de gedachte van de bergbeklimmer omarmen. Waarom willen we een data lake? Gewoon omdat het kan! Voordat besloten wordt om een data lake aan te leggen zou ik de volgende drie overwegingen meenemen.

Laat het data lake aansluiten bij de wensen van je organisatie

Er zijn veel big data experts die als uitgangspunt hanteren dat het gebruik maken van data uit het data lake exploratief is. De nadruk wordt gelegd op het doen van verkenningen en “grasduinen”. Wees je er echter bewust van dat  het data lake voor niets anders bedoeld is dan het ondersteunen van de vragen vanuit de organisatie. Het beantwoorden van die vragen gebeurt op basis van hypotheses. Bijvoorbeeld: zien we verschillen in loyaliteit van onze klanten als ze product A of B gebruiken? Verlies dit niet uit het oog. Het is fijn als je veel data hebt waarop je een hypothese kunt toetsen. Data is waardeloos als je eindeloos doorheen moet zoeken in de hoop dat je wellicht iets zult gaan vinden waar de organisatie haar voordeel mee kan doen.

Maak de verbinding tussen bestaande en nieuwe data omgevingen

Bij het gebruik van een data lake heb je andere uitdagingen dan de traditionele Data Warehouse omgeving. Bij een data lake is het vinden van de wegwijzer binnen de data van groot belang. Daarbij wordt gebruik gemaakt van andere technieken en talen (bijvoorbeeld R en Python). Creëer hiervoor een innovatief klimaat, zodat experimenteren en leren tot hun recht komen. Durf te leven met een aanpak die te typeren is als: “be fast, make mistakes and learn”. Of in gewoon Nederlands, doe kortcyclische trajecten waarvan geleerd wordt, om daarna pas te formaliseren en de data voor een breder publiek beschikbaar te maken. Uiteindelijk maak je dan weer de verbinding met de meer bestaande Data Warehouse omgeving en het BI gebruik daarvan.

Denk goed na over de volgorde van de data die je in data lake wilt onderbrengen

Het data lake wordt wel gezien als de plek waar alle data bij elkaar komt zonder dat je na hoeft te denken over de structuur van de data. Wees je bewust van het feit dat er genoeg gestructureerde data is om mee te beginnen, val niet in de valkuil om direct te beginnen met ongestructureerde data. Immers, als het al zo lastig is om zinvolle zaken uit gestructureerde data te halen, waarom dan beginnen met zoiets lastigs als ongestructureerde data?

Laatst zag ik deze definitie: A data lake is a large object-based storage repository that holds data in its native format until it is needed”. Het is een simpele definitie, maar roept direct een vraag op. Waarom zou je data opslaan in zijn oorspronkelijke formaat totdat de data wel eens van nut kan zijn? Immers, het gaat niet om het verzamelen van data, het gaat over het benutten daarvan via analyse technieken, om tot inzichten te komen die je helpen om betere beslissingen te nemen. Bepaal daarom een data strategie. Je kunt dan keuzes maken over het gebruik van die data. Zo is de definitie hierboven prima te gebruiken bij het opslaan van data vanuit de Internet of Things, online transacties of bij het vrijkomen van sensor data.

Dat de discussie over het opslaan van data leeft, kreeg ik recent weer bevestigd. Zo sprak ik laatst met een aantal managers van een grote organisatie die over heel veel data beschikt. Er was een groot besef dat er waarde in de data moest zitten. De verantwoordelijke manager voor de datavastlegging vertelde mij dat hij steeds weer de vraag aan zijn collega managers stelde of het zinvol was om alle data daadwerkelijk vast te leggen. Het was zijn manier om de discussie te hebben over welke vragen men als organisatie beantwoord wilde zien.

Mijn conclusie is daarom dat het aanleggen van een data lake een zinvolle actie is, maar doe het met de gedachte dat het je organisatie moet ondersteunen, niet alleen omdat het kan.

Robert Mansour

Geschreven door

Riviq

info@riviq.nl
+31 (0)70 40 60 966

meer over dit onderwerp