Datamigratie met ChatGPT een gamechanger, geen autopiloot

We weten inmiddels wel dat ChatGPT van een selfie een Disney-karakter kan maken. Maar het kan ook iets wat veel interessanter is: jou helpen bij het migreren van je data platform.

Hoe werkt dat? En waar moet je op letten? In dit blog datamigratie met ChatGPT legt data engineer Kim Nap dat haarfijn uit.

Large Language Model ChatGPT is vorm van generatieve artificial intelligence, ook wel GenAI. Het is kunstmatige intelligentie die in staat is om content te genereren. En ja, daar kun je geinige plaatjes of simpele teksten mee maken. Maar het kan je ook helpen met het migreren van je data platform.

Vier uitdagingen bij datamigraties

Bij Riviq migreren we voor onze klanten veel data van oude naar nieuwe data platforms. Bijvoorbeeld omdat het data platform van een klant te ouderwets is of niet meer ondersteund wordt door de leverancier. Data migreren is enorm interessant werk, maar ook tijdrovend. Dat komt door deze vier uitdagingen:

1. Je moet bepalen wat relevant is om te migreren en vaststellen hoe je dat bepaalt.
2. Je moet uitzoeken waar alle code staat die je wil overzetten naar het nieuwe platform.
3. Je moet het dialect van de code transformeren; van het dialect dat gebruikt wordt in het oude platform naar het dialect in het nieuwe platform.
4. Je moet de bestaande logica ombouwen naar modellen die geschikt zijn voor bijvoorbeeld dbt, onze favoriete data transformatie tool.

Zo helpt ChatGPT je bij datamigratie

Natuurlijk zijn er wel oplossingen om de boel wat te versnellen. Voor het zoeken naar de code die je wil overzetten, kun je bijvoorbeeld een Python-script schrijven dat alle XML-bestanden uitleest. Daarmee indiceer je de juiste code harstikke snel. Maar ja, het schrijven van zo’n script kost wel veel tijd. ChatGPT helpt je het datamigratieproces écht te versnellen, vooral bij uitdagingen 2, 3 en 4.

1 Hulp bij je Python-script

ChatGPT schrijft razendsnel een Python-script waarmee je de code uit het oude data platform kan doorzoeken. Het schrijven en debuggen van je script zonder ChatGPT duurt al gauw een tot twee dagen. Mét ChatGPT ben je in een paar uurtjes klaar.

2 Transformeer code automatisch

ChatGPT kent veel programmeertalen. Dat betekent dat de AI-tool je kan helpen om code uit het oude data platform te herschrijven naar code voor het nieuwe data platform. En dat met slechts een klik van je muis. Het mooie is: ChatGPT doet dat vrijwel foutloos.

3 Helpdesk voor jouw dbt-vragen

Dbt is een enorm uitgebreide data transformatie tool. Bij vragen over functionaliteiten of bij problemen die je tegenkomt, vraag je ChatGPT eenvoudig om raad. Vaak komt de tool dan met antwoorden die je de juiste kant op wijzen.

4 Profiteer van kant-en-klare GPT’s

Je hoeft het wiel inmiddels niet meer uit te vinden. Er zijn al talloze, gratis custom GPT’s die jou effectief helpen bij het migreren van je data. Dit zijn de GPT’s die ik veelvuldig gebruik:

o SQL Expert (QueryGPT)
o DBT Architect
o Python

Meer van dit in je mailbox?

We sturen je circa 6x per jaar een email met handpicked cases, blogs en tips.

Let op: dit zijn de risico’s van ChatGPT

ChatGPT kan zeer waardevol zijn voor jouw datamigratie proces. Helaas is er met veel dingen in het leven vaak een ‘maar’. Dus ook hier. Daarom zet ik enkele aandachtspunten voor je op een rijtje.

Laat niet alles door ChatGPT doen

Blijf zelf nadenken, controleren en valideren. Als je een paar keer een goed antwoord van ChatGPT hebt gekregen, denk je al gauw dat álles goed zal zijn. Dat is niet zo. Check ieder antwoord daarom nauwkeurig. Vraag ook regelmatig een ervaren collega om hulp. Hij of zij weet vaak weer andere – vaak praktischere – oplossingen dan ChatGPT.

Vermijd het transformeren van grote delen code

Hoe groter de hoeveelheid code je in één keer invoert in ChatGPT, hoe meer de tool zelf gaat ‘optimaliseren’. Ook als je daar niet om hebt gevraagd. En als je code as is wilt overzetten, zit je daar natuurlijk niet op te wachten. Voer daarom kleine stukjes code in. Zo houd je meer grip op de antwoorden van ChatGPT én kun je de code eenvoudiger zelf controleren.

Dat zelf optimaliseren van ChatGPT leer je overigens af door kraakheldere prompts te gebruiken.

Vraag bijvoorbeeld niet:

Vertaal de volgende SQL Server code naar Snowflake SQL.

Vraag wel:

Vertaal de volgende SQL Server code naar Snowflake SQL. Behoud daarbij de logica van de SQL Server code. Let op dat SQL Server niet hoofdlettergevoelig is en Snowflake wel. Pas dit toe in de code, zodat de SQL in Snowflake het gedrag van de SQL in SQL Server nabootst.

Stel geen algemene vragen

Wees zo specifiek mogelijk in je prompts aan ChatGPT. Stel je een te algemene vraag, dan ben je lang bezig met specificeren om een geschikt antwoord te krijgen. En dat kan weer veel tijd kosten, iets wat je juist wilde besparen. Tip: vraag ChatGPT om je prompt te verbeteren. Zo helpt het model je nog beter te specificeren wat je wilt.

Benut GenAI, maar blijf kritisch

Met ChatGPT versnel je de migratie van een data platform enorm. Het is een handige ‘persoonlijke assistent’ die je werk efficiënter maakt en je helpt kritisch te blijven op kwaliteit. Met name bij het vertalen win je veel, merk ik. Je kunt elke regel zelf aanpassen naar het juiste dialect, maar je kunt het ook door ChatGPT laten doen, dat kopiëren en nog even nalopen. Dat scheelt je al gauw de helft van de tijd.

Wel moet je continu kritisch en scherp blijven op de resultaten. Doe je dat niet, dan sluipen er wellicht fouten in die je juist weer veel tijd kunnen kosten. Zie ChatGPT daarom vooral als een gamechanger, niet als autopiloot.

Sprak de titel van dit blog je trouwens aan? Eén keer raden wie ’m bedacht heeft…

Kim Nap

Geschreven door

Kim Nap

Data engineer

Op de hoogte blijven van de laatste ontwikkelingen en webinars?

Schrijf je dan in voor de nieuwsbrief en ontvang circa 6x per jaar een selectie van blogs, cases, webinars en nieuws in je mailbox.

Meer over dit onderwerp