Data warehousing in de cloud: IaaS of PaaS? (deel 2)

Je moet tegenwoordig eerst een afkortingenboekje hebben om up to date te blijven in de wereld van de cloud-computing. Termen als IaaS, PaaS en SaaS vliegen om je oren, om nog maar te zwijgen van alle variaties hierop zoals DbaaS. In het Nederlands klinkt het vaak nogal knullig. Maar… we ontkomen er niet aan, dus leek het me een poging waard kort IaaS en PaaS uit te leggen in combinatie met BI. Ik had deze beloofd in mijn korte introductie blog deel 1 Data warehousing in de cloud: doet u al mee?

IaaS (Infrastructure as a Service)

In het begin van de cloud-computing was de keuze nog niet zo lastig. Wilde je een datawarehouse in de cloud, dan nam je IaaS af. IaaS staat voor Infrastructuur as a Service. Voor het DWH betekent dit: een virtuele machine met daarop een database. Zaken als een virtueel netwerk, extra harddisks, VPN verbindingen, gateways.. al deze componenten vallen onder de noemer IaaS. Het verschil tussen IaaS en het hosten van een server in een datacenter is dan ook (zeker bij virtualisatie) voor de gemiddelde gebruiker niet te onderscheiden. Ondanks dat het aanmaken van een virtuele machine slechts een kwestie is van een aantal keer klikken, komt bij het configureren nog steeds dezelfde expertise kijken als voorheen. Security, backups, firewall instellingen, patching, storage optimalisatie… niet de kennis die de gemiddelde BI specialist in huis heeft.

Inmiddels heb ik alweer een jaar of vier ervaring met IaaS, en ook de nodige (noodzakelijke) kennis over deze zaken opgedaan. Toch blijft het altijd een beetje een onderwerp waaraan wij als BI specialisten soms (te) snel voorbij gaan. Infra… dat is toch niet belangrijk? We drukken op de knop en er staat een server vrolijk te ronken… Het is inderdaad waar dat de dagen van patchkabels trekken voorbij is, maar een goed ingericht DWH, met de juiste security en configuratie is nog steeds de basis van elke goede cloud-omgeving. Toch zijn de cloud leveranciers zich ook bewust van het feit dat mensen niet meer zoveel willen configureren, maar gewoon meteen aan de slag willen. En dus deed langzaamaan een nieuwe vorm van cloud-diensten zijn intrede: Platform as a service, oftewel PaaS.

PaaS: Platform as a Service

PaaS bestaat als term alweer een jaar of 6, maar is lang niet zo bekend als de overige varianten maar daarom niet minder populair. Heel Microsoft Azure werd nog wel eens PaaS genoemd, want het is per slot van rekening een virtueel platform. Dit bedoelen we hier echter niet. Met PaaS bedoelen we een abstractielaag bovenop IaaS, waarbij je daadwerkelijk de infrastructuur en installatie overlaat aan het platform. Wanneer we kijken naar data warehousing binnen het Microsoft Azure platform, dan kun je hier grofweg kiezen uit twee PaaS varianten: Azure SQL Database en Azure SQL Data Warehouse

Azure SQL Database

Ze lijken op elkaar, maar onder water zeker niet! In het eerste geval neem je een database af, zonder dat je daarbij een virtuele machine hoeft te configureren. Er bestaat niet meer zoiets als een versie (SQL Server 2016, 2012, etc), maar gewoon: SQL database. Microsoft regelt de rest. Je bent altijd up-to-date. De opties zijn wel een stuk gelimiteerder t.o.v. een eigen installatie. Eén database, een lichtelijk vereenvoudigd T-SQL dialect en geen SSIS, SSAS of SQL Agent. Maar wel: Plug and play, al vanaf een tientje in de maand. Toch stijgen de kosten al redelijk snel: Wanneer je een database wilt van 4 terabyte, dan praten we al snel over 6000 euro in de maand. Een bedrag waar je ook een behoorlijk stevige SQL Server 2016 Enterprise editie kan neerzetten, met een theoretische limiet van 524 Petabyte(!). De afweging: de kosten van onderhoud, upgrades en beheer t.o.v. gemak en ontzorging. Ook schaalt PaaS een stuk beter dan IaaS wat betreft snelheid en kosten.

Azure SQL Data Warehouse

De andere optie is qua naamgeving degene die het meeste in het oog springt: SQL Data Warehouse. Vraag aan 10 personen zonder Microsoft Azure kennis wat je zou moet kiezen als je een data warehouse in de cloud wilt hebben en iedereen zal kiezen voor deze optie. Een slimme marketingtruc van Microsoft, want deze optie is ook meteen de meest prijzige. Maar is dit wel het ideale data warehouse? Het gaat hier om een z.g.n. MMP (Massively Parallel Processing)-clouddatabase. Een cluster van machines, oftewel een DWH appliance. Een beest van een data warehouse, die pas interessant wordt wanneer je terabytes aan data hebt die zeer snel gecruncht moet worden d.m.v. SQL. Alles is column-store, dus probeer er ook geen lappen tekst in te zetten. Begin je net, of is je data nog ver onder de 4 terabyte grens? Dan kun je deze optie in feite links laten liggen. Het is verleidelijk, maar over het algemeen kiezen we ook niet meteen een Ferrari voor ons woon-werk verkeer.

Om het wat leesbaar te houden komt binnenkort deel 3 waarin ik wat dieper inga op de overwegingen of je nou beter IaaS of PaaS kunt kiezen… tot die tijd lees ik graag jullie eigen overwegingen… en … de volgende keer dat iemand begint over DbaaS kun je nu gewoon antwoorden met  ‘dat is toch een vorm van PaaS?’ 😉

Robert Mansour

Geschreven door

Riviq

info@riviq.nl
+31 (0)70 40 60 966

meer over dit onderwerp

Send this to a friend