Metadata management? Dit is alles wat je erover moet weten

Zonder gedegen metadata management heb je niets aan jouw data. Een flink statement, maar het is toch echt waar. Wat is metadata management dan precies? En waarom is het zo essentieel? In dit blog legt Pascal Snijders, Business Intelligence Consultant bij Riviq, uit wat metadata management inhoudt en welke componenten daarin belangrijk zijn.

Om goed uit te leggen wat metadata management is, moet je vanzelfsprekend eerst weten wat metadata is. Stel, je leest de cijfers 25-2. Dat kan van alles betekenen. Het kan het huisnummer van een appartement zijn. Of het modelnummer van een stofzuiger. Het kunnen locatiegegevens zijn, maar een datum is natuurlijk ook een optie. Kortom, zonder context heb je geen idee wat deze cijfers betekenen. Je hebt meer informatie nodig om deze getallen te kunnen interpreteren. En dat is precies wat metadata is: het is data over andere data. Metadata geeft je data context en betekenis.

Wat is metadata management?

Metadata geeft antwoord op de vijf ‘w’s en de h’, namelijk: wie, wat, waar, wanneer, waarom en hoe. Denk bijvoorbeeld aan ‘Wie is de eigenaar en steward van deze data?’, ‘Wat is de definitie van dit gegeven?’, ‘Wie mag deze data inzien?’, ‘Waar is deze data opgeslagen?’ en ‘Hoe kan ik aan specifieke data komen?’. Als je antwoord geeft op al die vragen, krijg je een hoop metadata. Om daar wijs uit te worden, moet je die data goed beheren en onderhouden. Oftewel, je moet metadata managen.

Meer vertrouwen op je data

Goed metadata management zorgt ervoor dat je meer op je data kunt vertrouwen. Je weet bijvoorbeeld precies waar je data vandaan moet halen en wat je er wel of niet mee kan. Dat is belangrijk voor verschillende doeleinden. Met goed metadata management kun je bijvoorbeeld:

  • Eenvoudiger analyseren welke impact een aanpassing heeft
  • Uitleggen hoe resultaten tot stand zijn gekomen
  • Beter communiceren en samenwerken met andere datagebruikers
  • Beter voldoen aan wet- en regelgeving, zoals de AVG. Denk aan de rechten op inzage, rectificatie en vergetelheid. Als je je metadata management niet op orde hebt, is het haast onmogelijk daaraan te voldoen
  • De uitvoer van projecten versnellen

Meer van dit in je mailbox?

We sturen je circa 6x per jaar een email met handpicked cases, blogs en tips.

De vier belangrijkste componenten

Metadata management bestaat uit vier belangrijke componenten. Die licht ik een voor een toe.

1. Business glossary

Simpel gezegd is dit een intern woordenboek met concepten en termen die in de organisatie worden gebruikt. Je probeert samen tot uniforme definities te komen van begrippen die met de business te maken hebben. Wat verstaat men bijvoorbeeld onder ‘een klant’? Uniforme definities helpen jou, interne en externe teamleden om dezelfde taal te spreken en elkaar beter te begrijpen. Een business glossary stel je op los van techniek. Let wel, het opstellen van zo’n woordenboek kan veel tijd kosten en vereist goed ingerichte processen. Je moet immers van alle begrippen tot een gedeelde definitie komen. Dus hoe eerder je ermee begint, hoe beter.

2. Data dictionary

Een data dictionary beschrijft data in een specifieke omgeving, zoals een datawarehouse of rapportageomgeving. In zo’n dictionary staat bijvoorbeeld wat de datatypes zijn, beschrijf je de exacte locaties van tabellen en toegekende rechten. In tegenstelling tot een business glossary maak je een data dictionary wél als je al met de implementatie van een dataoplossing bezig bent. Diverse tools kunnen dictionaries opstellen door dataomgevingen automatisch te scannen.

3. Data lineage

Als je het hebt over vertrouwen op je data, dan kun je niet zonder heldere data lineage. Data lineage is een overzichtelijke weergave van de flow van data. Het geeft weer waar gegevens vandaan komen, waar ze naartoe gaan en welke bewerkingen ze onderweg hebben ondergaan. Data lineage is bijvoorbeeld van belang bij het analyseren van de gevolgen van aanpassingen aan data (impact analyse), bij het onderzoeken van de oorzaak van dataproblemen (root cause analyse) en om uit te leggen op welke gegevens rapportages zijn gebaseerd. Veel van deze data lineage breng je horizontaal in kaart. Maar verticale lineage bestaat ook. Daarbij breng je in beeld hoe je van business wensen tot een implementatie bent gekomen.

4. Data catalog

Een data catalog is een gedetailleerde inventarisatie van al je data assets. Het brengt de drie vorige onderdelen samen in één omgeving. Daarmee maak je het zoeken en vinden van geschikte data en datasets eenvoudiger. Ook weet je dankzij een data catalog snel wat je met data mag en kan doen. In zo’n inventaris kun je ook ervaringscijfers aan datasets toevoegen en delen. Daarmee geef je bijvoorbeeld aan hoe geschikt een dataset was voor een bepaald doel. Een belangrijke functie van een data catalog is dat je gemakkelijk metadata kunt inlezen, zodat je de inventaris snel en op grote schaal kunt verrijken. Voor het opzetten van een data catalog bestaan diverse tools, waaronder Azure Purview.

Begin nu met metadata management

In het werken met data is context heilig. Die context zorgt ervoor dat je data kunt begrijpen en dat je erop kunt vertrouwen. Daarom is het belangrijk dat je metadata nauwkeurig beheert en onderhoudt. Met de vier componenten uit dit blog staat niets je in de weg om te beginnen met goed metadata management. Maar hoe doe je dat dan? En hoe zorg je ervoor dat metadata management altijd op orde blijft? Dát lees je in het volgende blog van Pascal.

Pascal-Snijders

Geschreven door

Pascal Snijders

Project manager

Meer over dit onderwerp