Redactieadres:
Panteia B.V.
Postbus 7001
2701 AA Zoetermeer
T: 079 - 322 22 00
F: 079 - 343 01 01
De datarevolutie
door drs. J.J.J. Donkers*
Bijna alles wat wij dagelijks doen wordt inmiddels opgeslagen in een database. Zonder dat we daar vaak bij stilstaan laten we continu digitale sporen na. Als we boodschappen doen bij Albert Heijn geven we onze bonuscard keurig af aan de caissière en bij het Shell tankstation rekenen we niet alleen onze brandstof af, maar innen we ook onze Airmiles.
In het afgelopen jaar vonden in Nederland 1,6 miljard pintransacties plaats en werden met de Chipknip 175 miljoen betalingen gedaan. De mobiele telefoon is niet meer uit ons straatbeeld weg te denken. Volgens de OPTA waren er in Nederland eind december 2007 maar liefst 19,3 miljoen mobiele telefoonaansluitingen die in totaal 8,5 miljard minuten verbelden en 4,2 miljard SMS-berichten verzonden.
E-mailen en surfen over het internet zijn voor veel mensen een eerste levensbehoefte aan het worden. Zo hebben meer dan 5 miljoen Nederlanders een pagina aangemaakt op Hyves (als Hyves een Europees land zou zijn kon het zich qua aantal 'inwoners' meten met Ierland of Denemarken) en schrijven meer en meer mensen een Blog op het internet. Eind vorig jaar waren in Nederland maar liefst 5,6 miljoen breedbandaansluitingen actief (kabel en ADSL) en had meer dan 80 procent van alle huishoudens toegang tot het internet.
In de detailhandel worden artikelen van RFID-chips voorzien waarmee onder andere in de gaten kan worden gehouden hoeveel voorraad nog aanwezig is. Deze RFID-chips kunnen op afstand uitgelezen worden. Minder mensen is het waarschijnlijk bekend dat ook ons nieuwe paspoort met een dergelijke chip is uitgerust.
Met behulp van ons burgerservicenummer wordt bij gemeenten, belastingen en het UWV allerlei informatie over ons opgeslagen en actueel gehouden.
Feit is, dat we als burgers continu gevolgd worden door onze eigen elektronische schaduw. Ons dagelijkse gedrag wordt in principe meer en meer traceerbaar in allerlei databases. Deze databases vangen als het ware ons gedrag (wie doet wat, wanneer, hoe vaak en met wie) en bevatten zowel gestructureerde als ongestructureerde data.
Voor de eeuwigheid
In 1965 deed Gordon Moore de voorspelling dat het aantal transistors op een computerchip elke 24 maanden zou verdubbelen. Hoewel binnen afzienbare tijd fundamentele fysische barrières in zicht komen, geldt deze wet van Moore nog altijd. Inmiddels is er ook een variant van deze wet voor data-opslag. Volgens de wet van Kryder verdubbelt de opslagcapaciteit van een magnetische harde schijf jaarlijks en er wordt beweerd dat de kosten van data-opslag elke drie jaar halveren. De consequentie hiervan is dat we nooit meer data gaan weggooien. De kosten van het opruimen worden namelijk hoger dan het simpelweg kopiëren van data naar een nieuw opslagmedium. Moesten we in de tijd van de floppydisk nog goed nadenken of we bepaalde data wilden bewaren, inmiddels is er geen enkele reden meer om data weg te gooien. De keerzijde hiervan is natuurlijk ook dat als er eenmaal iets op internet staat, het bijna onmogelijk wordt om het ooit nog verwijderd te krijgen.
Exponentiële tijden
De wetten van Moore en Kryder
illustreren het exponentiële karakter van de technologische ontwikkeling in de IT-industrie. Voor data geldt dit in nog extremere mate. Zo verwerkt Google per maand 2,7 miljard zoekopdrachten. Ongelofelijk maar waar, Google bestaat nog geen tien jaar en heeft inmiddels een dusdanige positie in het leven van zeer velen weten te bemachtigen dat we niet meer weten wat we zonder Google zouden moeten. (Aan wie stelden wij eigenlijk al die vragen voordat Google bestond?). Vorig jaar werd er wereldwijd naar schatting 40 exabytes (4 x 1019) unieke informatie gecreëerd. Dat was in één jaar tijd meer data dan in de afgelopen 5000 jaar samen. Daarom zijn data de enige grondstof op aarde die in onbeperkte hoeveelheden beschikbaar is en nooit uitgeput zal raken (de wet van Donkers).
"
Waar koopt u uw brood?"
Des te opmerkelijker is het, dat in het hedendaagse beleidsonderzoek gedrag nog vaak wordt gemeten met behulp van vragenlijsten onder burgers, consumenten of bedrijven. De nieuwe bron van gedragsdata uit databases moet door beleidsonderzoekers nog grotendeels ontgonnen worden. Juist hier liggen voor beleidsonderzoek en beleidsonderzoekers enorm veel kansen. Klassiek in de bakkerswereld is de vraag aan consumenten "waar koopt u uw brood?". Op deze vraag antwoordt een ruime meerderheid van
de Nederlandse consumenten "bij de bakker". Wanneer wordt gevraagd "en waar heeft u uw laatste brood gekocht?" antwoorden dezelfde consumenten "bij de supermarkt". Kortom, er wil nog wel eens licht zitten tussen wat burgers en consumenten zeggen wat ze doen en wat ze feitelijk doen. Iedereen met enige ervaring in enquête-onderzoek weet hoe gevoelig de resultaten zijn voor de wijze van inleiden van het onderzoek en de vragen bij respondenten, de gebruikte antwoordschalen en voor sociaal wenselijke antwoorden. Het mooie van de data in databases is echter dat ze een exacte weerspiegeling zijn van wat wij feitelijk doen. Gedrag is met behulp van deze data dus veel nauwkeuriger te bestuderen dan het ooit met enquêtegegevens zal zijn.
Analyses met de snelheid van het licht
De vraag is natuurlijk wel hoe deze grondstof -die in onbeperkte mate voorhanden is- te raffineren, oftewel: hoe analyseer je al die gestructureerde en ongestructureerde data? Op dit terrein is ongelofelijk veel gebeurd in de afgelopen jaren. Zo hebben data- en textmining zich in snel tempo ontwikkeld. Datamining is het op een geautomatiseerde manier ontdekken van patronen en relaties in grote hoeveelheden data. Textmining bevat methoden en technieken om kennis uit ongestructureerde tekst te extraheren. In allerlei sectoren van het commerciële bedrijfsleven worden deze technieken al toegepast. Met name de telecombedrijven zijn bedreven in het analyseren van hun databases met belgedrag van hun klanten en combineren deze met notities uit hun callcenters. Alles is hier gericht op het verleiden van klanten om prepaid om te zetten naar een abonnement en om het vertrek van abonnementhouders te voorkomen.
Waar vroeger om redenen van computercapaciteit en performance nog met steekproeven werd gewerkt, worden tegenwoordig complete bestanden liefst realtime geanalyseerd. Op 17 januari 2008 kondigde Euronext bijvoorbeeld aan de beurskoersen voortaan met vier cijfers achter de komma te publiceren. Niet iets waar de gemiddelde belegger in Nederland met smart op zat te wachten. Echter ongeveer 40 procent van de totale aandelenomzet op de beurs komt tegenwoordig voor rekening van program trading: slimme computerprogramma's die razendsnel beurskoersen volgen en juist gebruik maken van afrondingsverschillen om door het verhandelen van grote partijen geld te verdienen.
Van analyseren naar voorspellen
Analyseren van beschikbare data is uiteraard geen einddoel. Interessant wordt het pas wanneer we bijvoorbeeld het gedrag van burgers of consumenten ook kunnen voorspellen.
Deze nieuwe golf van 'predictive analytics' begint steeds meer aan kracht te winnen. Zo zijn er initiatieven om conflicten te voorspellen op basis van patronen in een wereldwijde informatiestroom van nieuwsberichten, of epidemieën op basis van enorme gezondheidsdatabestanden. In Amerika bestaat er al een website
waar consumenten een advies kunnen krijgen of ze een vliegticket nu moeten kopen of nog beter even kunnen wachten. Farecast komt tot deze voorspelling op basis van analyses van 175 miljard prijsgegevens van vliegtickets uit het verleden.
Voor beleidsonderzoek wordt het de uitdaging dit soort aanpakken te vertalen naar beleid en beleidsvorming. Het doel van overheidsbeleid is ook het gedrag van burgers en bedrijven te veranderen. Voorspellende analyses van beleidsonderzoekers kunnen hier een bijdrage aan leveren.
Einde van de intuïtie?
Betekent dit dat we aan de menselijke intuïtie geen behoefte meer zullen hebben? Het tegendeel is eerder waar. Juist de enorme hoeveelheid beschikbare data vraagt om een intuïtieve aanpak. Vandaar dat de nodige initiatieven plaatsvinden rond het visualiseren van databestanden. Door het visualiseren van enorme datasets kan snel inzicht worden verkregen in 'knooppunten' in de data waarop verder geanalyseerd kan worden. Allerlei nieuwe visualisatietechnieken zoals treemaps en interactieve datapresentatietechnieken zijn dan ook in opkomst. Soms komen deze vernieuwende aanpakken uit hoeken waar deze het minst worden verwacht. Zo maakt Jonathan Harris kunst door het visualiseren van data op een bijzondere en interactieve wijze (www.number27.org). Al dit soort technieken maken het mogelijk om als het ware een 'wandeling door je eigen data te maken'.
En vragenlijsten dan?
Mogelijk zou de conclusie kunnen worden getrokken dat in de nabije toekomst geen vragenlijsten meer afgenomen worden. Ook hier zal eerder het tegendeel waar zijn. Data-analyses en modellen kunnen wel het "wat" verklaren, maar geven veelal geen antwoord op het "waarom". Willen we de motieven achter het gedrag leren kennen, dan blijven vragenlijsten een uitstekend hulpmiddel. Wel zullen vragenlijsten frequenter worden afgenomen, meer 'event driven' van karakter zijn, korter worden en meer ruimte voor interactie tussen onderzoeker en respondent gaan bieden. Juist de wisselwerking tussen data-analyses op basis van bestaande bronnen en vragenlijsten onder dezelfde doelgroep zal meerwaarde gaan bieden.
Wat betekent dit voor beleidsonderzoek?
Duidelijk is dat de (gedrags)datarevolutie behoorlijke consequenties en uitdagingen kan bieden aan beleidsonderzoek en beleidsonderzoekers. Het transformeren van beleidsonderzoek 1.0 naar 2.0 vraagt niet alleen het nodige op technologisch gebied, maar ook van competenties van medewerkers. Beleidsonderzoek zal in ieder geval op zoek moeten naar nieuwe manieren:
Beleidsonderzoek gaat hiermee een nieuwe spannende fase in zijn bestaan tegemoet.
Toegang als competentie?
Hoewel het bewerken van al die data tot informatie (en een stap verder tot kennis) al een opgave op zich is, zou de belangrijkste onderscheidende competentie van de toekomst voor beleidsonderzoeksbureaus wel eens toegang tot al deze databronnen kunnen zijn. Het sleutelwoord hierbij is vertrouwen, aangezien de meerderheid van deze gegevens op zijn zachtst gezegd nogal privacygevoelig is. Het beleidsonderzoeksbureau dat het vertrouwen van data-eigenaren krijgt voor het gebruik van databronnen voor geanonimiseerde analyses zal niet te verslaan zijn.
* Hans Donkers is directeur van Stratus Marktonderzoek
Voorbeelden nieuwe visualisatietechnieken:
http://services.alphaworks.ibm.com/manyeyes/home
www.gapminder.org
www.visualcomplexity.com
www.number27.org
Location http://www.basis-online.nl/index.cfm/1,119,430,0,html
Copyright © Panteia B.V. 2012