Data Integration Levels

Soms is het lastig uit te leggen wat een Data Warehouse (DWH) is, laat staan waar het voor bedoelt is. De laatste tijd hoor ik steeds vaker de opmerking:
‘Waarom heb je überhaupt nog een DWH nodig? CosmosDB kan alles opslaan en dit zonder ontwikkelkosten’

Okay wellicht een beetje aangedikt, maar het komt wel op hetzelfde neer.

Een DWH heeft als doel het volgende:

Integrate data & sources (m.b.v. Business Entities)
Match data (m.b.v. Business Keys)
Cleanse data (m.b.v. Master Data & Data Quality)

Het integreren van data kan op verschillende manieren, ook wel ‘levels‘. Uitleggen met alleen woorden blijkt toch echt lastig te zijn, dus heb ik hiervoor een simpel plaatje gemaakt:

DWH Data Integration Levels

 

Same server – Level 0
Tja…twee databases op dezelfde server/instance plaatsen, is natuurlijk een koud kunstje. 0 punten.

Same database – Level 0.5
Twee databases samenbrengen tot één database (met daarbij nog wel aparte schema’s), vergt al wat meer tijd.

Same table/schema – Level 1
Het doel is om klanten met klanten te combineren, zo ook dat je eindigt met één producten-tabel. Dit kan alleen indien je een model hebt dat bestaat uit Business Entiteiten. Dit model kun je vervolgens met data uit beide databases te vullen.

Integrated – Level 2
M.b.v. Business Keys kun je vervolgens matchen / ontdubbelen, eventueel zelfs de data opschonen. Dit is het level waarnaar je streeft binnen een DWH.