Metadata management? Dit is alles wat je erover moet weten
Zonder gedegen metadata management heb je niets aan jouw data. Een flink statement, maar het is toch echt waar. Wat is metadata management dan precies? En waarom is het zo essentieel? In dit blog legt Pascal Snijders, Business Intelligence Consultant bij Riviq, uit wat metadata management inhoudt en welke componenten daarin belangrijk zijn.
Om goed uit te leggen wat metadata management is, moet je vanzelfsprekend eerst weten wat metadata is. Stel, je leest de cijfers 25-2. Dat kan van alles betekenen. Het kan het huisnummer van een appartement zijn. Of het modelnummer van een stofzuiger. Het kunnen locatiegegevens zijn, maar een datum is natuurlijk ook een optie. Kortom, zonder context heb je geen idee wat deze cijfers betekenen. Je hebt meer informatie nodig om deze getallen te kunnen interpreteren. En dat is precies wat metadata is: het is data over andere data. Metadata geeft je data context en betekenis.
Wat is metadata management?
Metadata geeft antwoord op de vijf ‘w’s en de h’, namelijk: wie, wat, waar, wanneer, waarom en hoe. Denk bijvoorbeeld aan ‘Wie is de eigenaar en steward van deze data?’, ‘Wat is de definitie van dit gegeven?’, ‘Wie mag deze data inzien?’, ‘Waar is deze data opgeslagen?’ en ‘Hoe kan ik aan specifieke data komen?’. Als je antwoord geeft op al die vragen, krijg je een hoop metadata. Om daar wijs uit te worden, moet je die data goed beheren en onderhouden. Oftewel, je moet metadata managen.
Meer vertrouwen op je data
Goed metadata management zorgt ervoor dat je meer op je data kunt vertrouwen. Je weet bijvoorbeeld precies waar je data vandaan moet halen en wat je er wel of niet mee kan. Dat is belangrijk voor verschillende doeleinden. Met goed metadata management kun je bijvoorbeeld:
- Eenvoudiger analyseren welke impact een aanpassing heeft
- Uitleggen hoe resultaten tot stand zijn gekomen
- Beter communiceren en samenwerken met andere datagebruikers
- Beter voldoen aan wet- en regelgeving, zoals de AVG. Denk aan de rechten op inzage, rectificatie en vergetelheid. Als je je metadata management niet op orde hebt, is het haast onmogelijk daaraan te voldoen
- De uitvoer van projecten versnellen
Meer van dit in je mailbox?
We sturen je circa 6x per jaar een email met handpicked cases, blogs en tips.
De vier belangrijkste componenten
Metadata management bestaat uit vier belangrijke componenten. Die licht ik een voor een toe.
1. Business glossary
Simpel gezegd is dit een intern woordenboek met concepten en termen die in de organisatie worden gebruikt. Je probeert samen tot uniforme definities te komen van begrippen die met de business te maken hebben. Wat verstaat men bijvoorbeeld onder ‘een klant’? Uniforme definities helpen jou, interne en externe teamleden om dezelfde taal te spreken en elkaar beter te begrijpen. Een business glossary stel je op los van techniek. Let wel, het opstellen van zo’n woordenboek kan veel tijd kosten en vereist goed ingerichte processen. Je moet immers van alle begrippen tot een gedeelde definitie komen. Dus hoe eerder je ermee begint, hoe beter.
2. Data dictionary
Een data dictionary beschrijft data in een specifieke omgeving, zoals een datawarehouse of rapportageomgeving. In zo’n dictionary staat bijvoorbeeld wat de datatypes zijn, beschrijf je de exacte locaties van tabellen en toegekende rechten. In tegenstelling tot een business glossary maak je een data dictionary wél als je al met de implementatie van een dataoplossing bezig bent. Diverse tools kunnen dictionaries opstellen door dataomgevingen automatisch te scannen.
3. Data lineage
Als je het hebt over vertrouwen op je data, dan kun je niet zonder heldere data lineage. Data lineage is een overzichtelijke weergave van de flow van data. Het geeft weer waar gegevens vandaan komen, waar ze naartoe gaan en welke bewerkingen ze onderweg hebben ondergaan. Data lineage is bijvoorbeeld van belang bij het analyseren van de gevolgen van aanpassingen aan data (impact analyse), bij het onderzoeken van de oorzaak van dataproblemen (root cause analyse) en om uit te leggen op welke gegevens rapportages zijn gebaseerd. Veel van deze data lineage breng je horizontaal in kaart. Maar verticale lineage bestaat ook. Daarbij breng je in beeld hoe je van business wensen tot een implementatie bent gekomen.
4. Data catalog
Een data catalog is een gedetailleerde inventarisatie van al je data assets. Het brengt de drie vorige onderdelen samen in één omgeving. Daarmee maak je het zoeken en vinden van geschikte data en datasets eenvoudiger. Ook weet je dankzij een data catalog snel wat je met data mag en kan doen. In zo’n inventaris kun je ook ervaringscijfers aan datasets toevoegen en delen. Daarmee geef je bijvoorbeeld aan hoe geschikt een dataset was voor een bepaald doel. Een belangrijke functie van een data catalog is dat je gemakkelijk metadata kunt inlezen, zodat je de inventaris snel en op grote schaal kunt verrijken. Voor het opzetten van een data catalog bestaan diverse tools, waaronder Azure Purview.
Begin nu met metadata management
In het werken met data is context heilig. Die context zorgt ervoor dat je data kunt begrijpen en dat je erop kunt vertrouwen. Daarom is het belangrijk dat je metadata nauwkeurig beheert en onderhoudt. Met de vier componenten uit dit blog staat niets je in de weg om te beginnen met goed metadata management. Maar hoe doe je dat dan? En hoe zorg je ervoor dat metadata management altijd op orde blijft? Dát lees je in het volgende blog van Pascal.
Geschreven door
Pascal Snijders
Project manager
Meer over dit onderwerp
Copilot voor Power BI. Je persoonlijke assistent voor rapportages?
Is Copilot voor Power BI een volwassen tool en hoe bruikbaar is het?Copilot voor Microsoft Fabric is sinds juni 2024 algemeen beschikbaar in Power BI. Tijdens introductie waren er hoge verwachtingen! In verschillende artikelen, guides en tutorials werden de...
Altijd keurige code met SQLFluff in DBT. Zo werkt deze handige linter
SQL-code reviews kunnen behoorlijk tijdrovend zijn. Zeker als al je collega’s code op een andere manier schrijven. Bijvoorbeeld omdat je er geen afspraken over hebt gemaakt of niet iedereen zich aan de afspraken houdt. Met SQLFluff in dbt voorkom je dat. Data engineer...
Is Microsoft Fabric de moeite waard? Dit zijn onze bevindingen
Microsoft Fabric biedt op het eerste oog ongekende mogelijkheden, maar maakt het de verwachtingen waar? Data engineer Koen Kurver zocht het uit.