Waarom Randstad haar data lake vernieuwt met Amazon S3 en Trino (en wat het oplevert)

Uitzendbureau Randstad Groep Nederland is bezig met een belangrijke IT-operatie: de vernieuwing van het centrale data lake. Met de hulp van dataspecialist Riviq verplaatst Randstad het data lake van Amazon Redshift naar Amazon S3 (Simple Storage Service) en Trino. Wat dat precies inhoudt en welke voordelen dat oplevert, leggen we uit in dit blog.

Het data lake van Randstad Groep Nederland is een verzamelbak met alle data die het uitzendbureau produceert. Denk daarbij aan gegevens over talenten, planningen voor ploegendiensten en data rondom verloning. Ook komt er data uit externe bronnen in het data lake terecht, bijvoorbeeld voor openstaande vacatures. In totaal praat je dan over ongeveer 300 databronnen. Het data lake is dus – op zijn zachtst gezegd – van grote waarde voor Randstad.

Prominentere rol voor data lake

Het DataHub team van Randstad is verantwoordelijk voor het goed functioneren van het data lake platform. “Zo’n vijf jaar geleden bouwden we het huidige data lake in Redshift, het datawarehouse platform van Amazon”, vertelt Marc Emanuel, Lead Data Engineer bij Randstad Groep Nederland. “Het data lake neemt de afgelopen jaren een steeds prominentere rol in binnen Randstad. Reden voor het management om ervoor te kiezen dat álle data binnen de organisatie in het data lake terecht moet komen, zodat de gehele organisatie er nog beter uit kan putten. Een uitstekend plan, maar om dat mogelijk te maken, moeten we het data lake uit Redshift halen”, stelt Marc.

Waarom Redshift geen ideale service voor een data lake is

Redshift is niet de ideale tool om een volwaardig data lake mee te creëren. Dat komt door verschillende factoren. “Redshift is eigenlijk alleen geschikt voor gestructureerde data, maar in een data lake wil je juist ook ongestructureerde data kwijt”, vertelt Marc. “Daarnaast komen de datatypes in Redshift vaak niet overeen met de datatypes in de bronsystemen. Om dat op te lossen, moet je veel handmatig – en dus foutgevoelig – werk uitvoeren. Ook zijn opslag en rekenkracht in Redshift aan elkaar gekoppeld. In de praktijk betekent het dat er onnodig veel rekenkracht wordt gebruikt als de hoeveelheid data toeneemt. Bovendien vergt het gebruiken van externe bronnen, zoals Google Cloud Platform, een aparte datatransport naar de AWS cloud. En tot slot kun je niet verschillende versies van je data lake bewerken en beheren.”

Migratie naar Amazon S3 en Trino

Met hulp van Riviq migreert het data lake van Redshift naar Amazon S3, een schaalbare opslagservice in de cloud, en Trino. “We vervangen de technische setup van het data lake voor een beter passende”, vertelt Jasper Venema, Product Owner DataHub bij Randstad Groep Nederland. “Vooral omdat we in de toekomst opslag en compute ver willen kunnen schalen én meerdere bestandstypes en ongestructureerde data willen ondersteunen. Met S3 als opslag en Trino als onafhankelijk schalende query engine kan dat. Deze migratie is technisch erg complex, onder andere omdat het veel kennis vraagt over zowel de oude als nieuwe platformen. Daarom helpt Riviq ons, zij hebben die kennis en ervaring in huis.”

“Deze migratie is technisch erg complex, o.a. omdat het veel kennis vraagt over zowel de oude als nieuwe platformen. Daarom helpt Riviq ons, zij hebben die kennis en ervaring in huis.”

Jasper Venema

Product Owner DataHub, Randstad Groep Nederland

De vernieuwingsvoordelen voor Randstad

De migratie naar S3 en Trino levert belangrijke voordelen op voor Randstad en de gebruikers van het data lake. Lead Data Engineer Marc legt het uit:

  • Oneindig schalen
    “De opslagruimte in S3 schaalt praktisch zonder limiet. Dat zorgt er bijvoorbeeld voor dat Randstad nooit waardevolle data hoeft weg te gooien.”
  • Ook ongestructureerde data
    “In S3 kunnen we ook semigestructureerde of zelfs ongestructureerde data kwijt, zoals cv’s en video’s. Dat is waardevolle data waar we in de toekomst meer mee kunnen.”
  • Data combineren
    “Met S3 kunnen we externe databronnen eenvoudig koppelen aan ons data lake, zoals een salesapplicatie in de cloud. Zo kunnen gebruikers via één interface alle beschikbare data binnen onze organisatie aanroepen.”
  • Alleen betalen voor gebruik
    “S3 gaat uit van een pay-per-use model, dus we betalen alleen voor de opslagruimte die we daadwerkelijk gebruiken. Ook de nieuwe query engine is auto-schalend en zorgt dat we betalen voor de
    performance die we wensen op elk moment. Daarnaast gebruiken we voor het inladen en verwerken van nieuwe data een auto-schalend EMR-cluster.”
  • Onafhankelijk van cloudprovider
    “De manier waarop we het data lake nu opzetten, zorgt ervoor dat we kunnen veranderen van provider. Nu is het Amazon, maar we kunnen ook overstappen naar Google of een private cloud. Mocht het nodig zijn.”
  • Deur open voor data science
    “Misschien wel het belangrijkste voordeel is dat Randstad met de nieuwe setup van ons data lake makkelijker aan de slag kan met data science. Denk aan artificial intelligence om talenten nóg beter te matchen met bedrijven. Of om talenten banen aan te bieden die perfect bij ze passen, zonder dat ze dat zelf wisten. Op die manier halen we nog meer waarde uit onze data.”

Jaren vooruit

Riviq en het DataHub team van Randstad zijn in november 2020 aan de vernieuwing begonnen. “Het gaat de goede kant op”, zegt Product Owner Jasper. “We verwachten in december 2021 klaar te zijn. Daarna willen we de vindbaarheid van data én de datakwaliteit verbeteren. Op die manier kan Randstad weer jaren vooruit met een modern en flexibel data lake.”

Job-ammerlaan

Geschreven door

Job Ammerlaan

Data engineer

meer over dit onderwerp

Send this to a friend