Hoe volwassen is de data quality component van Microsoft Purview?
Beschik je over grote hoeveelheden data in allerlei databronnen? Dan kan Microsoft Purview je helpen om daar grip te houden. Onderdeel van de mogelijkheden met Purview is het beheren van de datakwaliteit.
Maar is dit onderdeel van de service al volwassen genoeg om te gebruiken? Koen Kurver en Rick van Zeijl namen de proef op de som.
De hoeveelheid data in organisaties blijft maar groeien. Dat geldt ook voor de behoefte om mooie oplossingen te bouwen die optimaal gebruikmaken van al die informatie. Dat vraagt om betrouwbare, accurate data.
Gegevens waarvan je precies weet waar ze vandaan komen en wie er verantwoordelijk voor is. Tegelijkertijd stellen wet- en regelgevers ook allerlei eisen aan de manier waarop je die data beheert en wie toegang heeft tot die gegevens.
Daarom ontstaat er steeds meer behoefte aan slimme tools die je helpen om gegevens en gegevensbronnen op een goede, geïntegreerde manier te managen.
Navigatiesysteem voor je data(kwaliteit)
Microsoft Purview (voorheen Microsoft Azure Purview) is zo’n datamanagement tool. In een eerder blog omschreven we Purview als een geavanceerd navigatiesysteem voor je data.
Je vindt met Purview eenvoudig de weg naar de juiste data uit al je systemen en bronnen. Maar je kunt ook metadata aan je data toevoegen en deze beheren, gevoelige data labelen, één versie van de waarheid bewaken, automatisch scannen op metadata-mutaties en haarscherp zicht creëren op de data lineage.
Een belangrijke onderdeel Purview is het beheren van de datakwaliteit. Purview helpt je op verschillende manieren om de kwaliteit van je data op niveau te houden. Maar kun je de relatief nieuwe tool al met een gerust hart gebruiken? Om antwoord te geven op die vraag, doken wij diep in de tool.
Hoe werkt data quality binnen Purview?
Ga je aan de slag met data binnen Purview? Dan begin je met het koppelen van verschillende databronnen binnen een data map.
Die Microsoft Purview Data Map, zoals hij voluit heet, vormt het fundament onder en het startpunt van data discovery en data governance binnen Purview.
De data map fungeert als een overkoepelende laag die je helpt om overzicht te krijgen in je data. Je creëert een overzicht óver de verschillende systemen en databases die leven binnen de organisatie.
De laag dient ook als een startpunt om verschillende Purview features toe te passen op de toegevoegde databronnen.
Door scans uit te voeren leest Purview de metadata en eigenschappen van je databronnen uit.
Omdat Purview soepel integreert met het Azure-platform, is het vrij eenvoudig om data op te halen. Wanneer je alles goed hebt ingesteld, is dit letterlijk een kwestie van één druk op de knop.
Daarna kun je data quality regels toepassen op de databronnen. Purview biedt een aantal standaard data quality regels aan. Denk bijvoorbeeld aan regels als:
– Empty blank fields
– Freshness
– Duplicate rows
– Unique values
– String format match
– Data type match
– Table lookup
Daarnaast kun je ook je eigen custom regels opstellen waarbij je gebruikmaakt van Microsoft Purview Data Quality expression language.
Ook is het mogelijk om DQ-regels te genereren voor data assets met behulp van AI.
Na het configureren van je data assets via de data map kun je kwaliteitsscores tonen op basis van de door jou ingesteld regels.
Meer van dit in je mailbox?
We sturen je circa 6x per jaar een email met handpicked cases, blogs en tips.
Verder kun je ook monitoring instellen waarbij Purview notificaties stuurt via e-mail wanneer een data quality regel onder de vooraf ingestelde drempelwaarde komt.
Is Microsoft Purview volwassen genoeg om te gebruiken?
Op de vraag of de DQ-component van Microsoft Purview volwassen genoeg is om te gebruiken, is het antwoord (winter 2024) nee.
Microsoft Purview heeft zeker potentie en waarde. Het systeem heeft alles in zich om een fijne tool te worden voor grip en controle over een datalandschap.
Toch is de data quality component van Purview op dit moment nog niet volwassen genoeg.
Wat opvalt is dat Microsoft nog volop bezig is met het ontwikkelen van Purview. Waar we eerste bepaalde functionaliteiten volledig kon gebruiken, waren die twee weken later opeens verdwenen.
Purview is nog niet heel overzichtelijk en intuïtief. De functionaliteit die je nodig hebt voor je werk, zit verstopt in verschillende schermen. Sommige handelingen voelen daardoor heel omslachtig.
De tool integreert makkelijk met de andere Azure services, waardoor het toevoegen van data assets eenvoudig werkt, op voorwaarde dat de rechten juist zijn toegekend.
Al met al kost het een hoop configureerwerk om de potentie er enigszins uit te laten komen. In combinatie met de vele wijzigingen is het nog te vroeg om Purview volledig in gebruik te nemen
We hebben natuurlijk nog maar een klein onderdeel van de hele Microsoft Purview service aangeraakt. De échte toegevoegde waarde zit ‘m straks in synergie tussen de verschillende Purview-componenten.
Wij blijven Microsoft Purview daarom in de gaten houden.
Geschreven door
Koen Kurver
Data engineer
Op de hoogte blijven van de laatste ontwikkelingen en webinars?
Schrijf je dan in voor de nieuwsbrief en ontvang circa 6x per jaar een selectie van blogs, cases, webinars en nieuws in je mailbox.
Meer over dit onderwerp
De kracht van text mining. Zo haal je waardevolle inzichten uit enquêtes
Enquêtes leveren vaak waardevolle feedback op, maar veel organisaties benutten de informatie uit open antwoorden nog onvoldoende. Wat als je deze verborgen informatie kunt omzetten in bruikbare inzichten voor jouw organisatie? In dit artikel laat Data Scientist...
Copilot voor Power BI. Je persoonlijke assistent voor rapportages?
Is Copilot voor Power BI een volwassen tool en hoe bruikbaar is het?Copilot voor Microsoft Fabric is sinds juni 2024 algemeen beschikbaar in Power BI. Tijdens introductie waren er hoge verwachtingen! In verschillende artikelen, guides en tutorials werden de...
Altijd keurige code met SQLFluff in DBT. Zo werkt deze handige linter
SQL-code reviews kunnen behoorlijk tijdrovend zijn. Zeker als al je collega’s code op een andere manier schrijven. Bijvoorbeeld omdat je er geen afspraken over hebt gemaakt of niet iedereen zich aan de afspraken houdt. Met SQLFluff in dbt voorkom je dat. Data engineer...