Online datawarehouses (1)
Auteur: Rick F. van der Lans
Geschreven: april 1999
Gepubliceerd in: CM Corporate.Net, nummer 129

Voor het begrip datawarehouse wordt meestal Bill Inmon's definitie gehanteerd: "A datawarehouse is a subject oriented, integrated, non-volatile, and time variant collection of data in support of management's decisions". Een van de eigenschappen die daarin wordt genoemd is dat een datawarehouse non-volatile ofwel statisch is. Deze eigenschap zou de komende jaren
wel eens drastisch kunnen veranderen om een hoger rendement (return-on-investment) uit het datawarehouse te halen. En daarmee gaan we van statistische via near-online naar volledig online datawarehouses.
Maar laten we bij het begin beginnen. Met "statisch" wordt bedoeld dat gegevens die eenmaal in een datawarehouse zijn geladen, achteraf zelden gewijzigd zullen worden. Een datawarehouse wordt primair alleen geraadpleegd met OLAP-, query en andersoortige business intelligence-tools. De inhoud wordt niet, zoals bij een productiesysteem, veelvuldig gemuteerd. De meeste datawarehouses die momenteel operationeel zijn, zijn op deze wijze en met deze intentie opgezet.
Bedrijven die een warehouse al enige tijd succesvol gebruiken, zijn op zoek gegaan naar additionele mogelijkheden om meer voordeel uit hun gedane investering te halen. Al deze mogelijkheden hebben één ding gemeen: ze leiden tot een sterkere integratie tussen de productiesystemen en het datawarehouse. In deze en de volgende column wil ik ingaan op deze mogelijkheden en zal ze als fasen beschrijven, omdat de bedrijven dit ook vaak zo zien.
In de eerste fase worden enkele batch-rapporten die nog op de productiesystemen worden losgelaten, verplaatst naar het datawarehouse. Dit is een relatief eenvoudige exercitie, omdat de productie- en warehouse-omgeving niet aangepast hoeven te worden. Het enige is dat de code waarin de database benaderd wordt, wel aangepast moet worden. Deze ingreep heeft diverse praktische voordelen. Eén is dat er minder verwerking op het productiesysteem plaatsvindt, waardoor er meer tijd beschikbaar komt voor andere zaken. Tevens zal de kwaliteit van de inhoud van het rapport ook toenemen, omdat de warehouse gegevens opgeschoond zijn (tenminste, dat mogen we aanmenen). Het enige nadeel zou kunnen zijn dat alle rapporten die nu door het rapportage-programma worden gecreëerd niet meer in lijn zijn met de oude rapporten. Er ontstaat een breukpunt. Gebruikers moeten hierover wel degelijk van te voren op de hoogte gebracht worden. Maar veel bedrijven hebben deze fase met succes afgesloten en heeft ze klaarblijkelijk niet tot serieuze problemen geleid.
In fase twee staan we toe dat productie-applicaties toegang krijgen (read-only) tot het datawarehouse. Hiermee krijgen ze toegang tot historische gegevens (die reeds uit het productiesysteem verwijderd zijn), externe gegevens (die nooit in het productiesysteem opgeslagen geweest zijn) en opgeschoonde gegevens. Zeker bij customer care-applicaties kunnen bedrijven hier interessante voordelen uit halen. In een postorderbedrijf kunnen we bijvoorbeeld de externe gegevens gebruiken om, bij het invoeren van een telefonische order, eerst de klant beter te kunnen screenen. Ook kunnen call centers meer informatie over de personen opvragen die bellen.
Deze fase stelt echter wel zware eisen aan het datawarehouse. De beschikbaarheid zal bijvoorbeeld gelijk moeten zijn aan die van het productiesysteem.
Bij fase drie worden de gegevens, die via allerlei verwerkingsslagen opgeschoond in het datawarehouse terecht zijn gekomen, teruggeplaatst in het productiesysteem. Om het simpel voor te stellen: dit betekent dat 's avonds de gegevens uit het productiesysteem gekopieerd, opgeschoond en vervolgens in het datawarehouse worden opgeslagen. Daarna worden deze opgeschoonde gegevens weer terug geplaatst in het productiesysteem, zodat de volgende dag alle foutieve spellingen en coderingen gecorrigeerd zijn. Dit verhoogt uiteraard de kwaliteit van de gegevens waar ze in de productiesystemen mee werken en zou daarmee ook de besturing van de bedrijfsprocessen kunnen verbeteren.
Diverse bedrijven hebben deze drie fasen reeds uitgevoerd, en sommigen zijn reeds bezig na te denken over wat nog meer mogelijk zou kunnen zijn. Hierover meer in het vervolg op deze column in het volgende nummer van CM Corporate. Daar zullen we dan het effect beschrijven van deze fasen op het ontwerpen van
datawarehouses.