Skip navigation

Redactieadres:

Panteia B.V.

Postbus 7001

2701 AA Zoetermeer

T: 079 - 322 22 00

F: 079 - 343 01 01

E: redactie@panteia.nl

Naar een evenwichtige methodologie van beleidsevaluatie

Licht in de zwarte doos
Door drs. A. Ziegelaar*

De behoefte aan ´evidence-based´ beleid is groot. Het vaststellen van de effecten van beleid is echter methodologisch niet eenvoudig. Op basis van een gesprek met de onderwijseconoom Hessel Oosterbeek, hoogleraar aan de universiteit van Amsterdam, wordt een evenwichtige visie op dit vraagstuk ontwikkeld.

(Quasi-)experimentele evaluatie
De experimentele methode is er op gericht de mate van het effect van een bepaalde maatregel vast te stellen. Dit gebeurt door de vergelijking van een experimentele groep, die onderworpen wordt aan de maatregel, met een controlegroep waarvoor dat niet geldt. Het verschil tussen beide groepen is dan het effect van de interventie. Deze opzet, die veel gebruikt wordt in medisch onderzoek naar geneesmiddelen of behandelingen, zou ook voor het vaststellen van het effect van beleid de aangewezen methode zijn. In de zuivere vorm, de zogenaamde 'gouden standaard', is de opzet alleen valide als een aselecte steekproef uit de te onderzoeken populatie aselect in een experimentele en controlegroep wordt verdeeld zonder dat de proefpersonen en experimentatoren weten wie in welke groep zit (dubbel blind). Verder mag er in principe uit de steekproef geen uitval zijn, omdat die selectief kan zijn en de meting van de resultaten verstoort. Ook moet het effect binnen afzienbare tijd optreden. Behoudens statistische marges zou deze methode dan een ondubbelzinnige vaststelling van het effect van de maatregel geven.
In de praktijk van het beleidsonderzoek is het toepassen van deze gouden standaard zelden mogelijk. Bij het ontwerp van beleid wordt doorgaans geen rekening gehouden met de toetsbaarheid ervan. Dat betekent dat er meestal geen expliciete controlegroep is waarop de maatregel niet toegepast wordt. Vaak zijn er wel mogelijkheden om een controlegroep te construeren. Mensen waarop de maatregel (net) niet van toepassing is of die niet aan de maatregel meedoen, terwijl ze verder erg lijken op de groep die er wel aan onderworpen is. Ook kunnen gegevens omtrent de controlegroep geschat worden uit historische trends. Dergelijke constructies om de zuivere vorm van de experimentele methode na te bootsen worden quasi-experimentele modellen genoemd.
Veel beleidsmakers en beleidsonderzoekers zien de (quasi-)experimentele opzet als de koninklijke weg voor het vaststellen van beleidseffecten, hoewel er in de praktijk van het onderzoek vaak de nodige praktische problemen aan verbonden zijn, zoals gebrekkige data, niet beschikbare data, uitval uit de steekproef en onvergelijkbaarheid van controle- en experimentele groep. Al deze zaken kunnen de interne validiteit van het experiment aantasten. Er dient dus veel aandacht uit te gaan naar het waarborgen van die validiteit. Afgezien van deze moeilijkheden is er fundamentele kritiek op het quasi-experimenteel evalueren.

Kritiek op de (quasi-)experimentele opzet
In een bekend boek over evaluatieonderzoek leveren Pawson en Tilley fundamentele kritiek op evaluaties die zijn gebaseerd op de (quasi-)experimentele methode. In de praktijk van de quasi-experimentele beleidsevaluatie wordt getracht zo goed mogelijk de zuivere experimentele opzet te realiseren. Dit betekent dat in het onderzoek veel aandacht is voor de interne validiteit van het onderzoek, want die bepaalt of de conclusies van het onderzoek als geldig aanvaard worden. De grondgedachte van deze kritiek van Pawson en Tilley is dat deze vorm van evaluatie niets zegt over de externe validiteit of generaliseerbaarheid van de conclusies.
Het is de schrijvers opgevallen dat verschillende onderzoeken naar dezelfde beleidsmaatregelen, zoals naar een reïntegratieprogramma voor delinquenten en criminaliteitspreventie door intensievere surveillance, tegenstrijdige uitkomsten geven. Volgens het ene onderzoek heeft de maatregel wel en volgens het andere geen effect. Geconfronteerd met dergelijke tegenstrijdigheden zitten beleidsmakers met de handen in het haar: werkt dit beleid nu of niet? Op welke wijze kunnen we de resultaten juist interpreteren?
Volgens Pawson en Tilley is dit probleem de inherente zwakte van de quasi-experimentele onderzoeksmethode die geworteld is in verkeerde wetenschapstheoretische veronderstellingen. Dergelijk onderzoek biedt geen aanknopingspunten om te kunnen begrijpen waarom er in het ene geval wel en in het andere geval geen effect is. Deze zwakte is een gevolg van het feit dat in deze opzet het experiment als een 'zwarte doos' wordt beschouwd. Er wordt een bepaalde interventie gepleegd op een experimentele groep (input) en vervolgens wordt gekeken hoe een bepaalde doelvariabele verandert in vergelijking met die zelfde variabele in de controlegroep (output). Wat er gebeurt tussen input en output is onzichtbaar en speelt in deze opzet geen rol. Daardoor wordt de onderliggende werking van een bepaalde maatregel, niet blootgelegd. De context kan de werking van de maatregel blokkeren of juist bevorderen. Ook kan de maatregel op een andere manier werken dan vooraf verondersteld is. Als de context de werking blokkeert wil dat niet zeggen dat de maatregel niet deugt, maar dat de effectiviteit van de maatregel afhankelijk is van de omstandigheden waarin hij genomen wordt. Omdat deze omstandigheden niet in de opzet verdisconteerd worden, zijn de conclusies dus afhankelijk van onbekende contextuele variabelen en kunnen ze niet gegeneraliseerd worden naar andere situaties en tijden. Dit verklaart de tegenstrijdigheid van uitkomsten van verschillende onderzoeken die quasi-experimenteel verricht worden. Omdat elk onderzoek plaatsvindt in een (deels) andere context en die context bepalend is voor de werking van de maatregel, wordt er in het ene geval wel en in het andere geval geen effect geconstateerd.
De waarde van het (quasi-)experimentele onderzoek is dus beperkt, ook als het intern valide is uitgevoerd. Doordat de zwarte doos tussen input en output dicht blijft, is onduidelijk of en hoe het mechanisme werkt en van welke contextuele variabelen dat afhankelijk is. Daardoor is de externe validiteit gering en de quasi-experimentele methode minder geschikt om beleidsevaluatie uit te voeren en daarvan te leren.

Van tegenstelling naar complement
Deze kritiek op het experimenteel model lijkt fundamenteel en dodelijk. De vraag is of het model voorgoed op de schroothoop van afgedankte onderzoeksmethoden kan. Dat het zo'n vaart niet loopt blijkt uit onderzoek dat Hessel Oosterbeek uitvoert. Hij is in Nederland één van de pleitbezorgers van (quasi-) experimenteel beleidsonderzoek. Zijn klacht is niet dat er te veel van dergelijk onderzoek plaatsvindt, maar juist te weinig. Veel beleidsevaluatie vindt plaats met onvoldoende methodisch bewustzijn. Bij de ontwikkeling van beleid wordt onvoldoende rekening gehouden met de evalueerbaarheid ervan en bij de uitvoering van de evaluatie wordt vaak ten onrechte niet naar de counterfactual gezocht: de situatie zoals die geweest zou zijn als de beleidsmaatregel niet genomen was. Beleidsonderzoekers maken zich te weinig hard voor een valide onderzoeksdesign en vaak wordt daar niet eens goed over nagedacht. Beleidsmaatregelen zouden veel meer ontworpen moeten worden op experimentele evalueerbaarheid. Daarmee wordt de beleidsvorming wel wat complexer, maar al snel houd je alleen het goede beleid over. Er zou veel tijd, geld en moeite bespaard kunnen worden die nu verspild worden met ineffectief of zelfs contraproductief beleid. Beleid dat niet werkt dient te worden afgeschaft. Zowel beleidsmakers als beleidsonderzoekers hebben de verantwoordelijkheid de evalueerbaarheid van maatregelen te bevorderen. Er moet dieper worden nagedacht over het construeren van de counterfactual waarvoor vaak meer mogelijkheden zijn dan benut worden.
Kennis van (internationale) ontwikkelingen in de methodologie kan deze onderbenutting tegengaan. Eén van die ontwikkelingen is halverwege de jaren negentig opgepikt. Dit betreft mogelijkheden om de counterfactual te construeren aan de hand van zogenaamde regressiediscontinuiteiten. Bij veel beleidsmaatregelen, zoals subsidieregelingen, wordt bepaald of een persoon of instelling ervoor in aanmerking komt door een min of meer willekeurige grenswaarde. Door elementen vlak voor en achter dit punt te vergelijken kan men het effect van een maatregel bepalen.
Zo heeft Oosterbeek onderzoek verricht naar de effectiviteit van een subsidieregeling voor scholen met meer dan 70% allochtone leerlingen. Een school met 69,9% allochtone leerlingen krijgt die subsidie niet, terwijl een dergelijke school nauwelijks verschilt van een school die 70,1% allochtone leerlingen heeft. Deze regeling is, onbedoeld, geschikt om quasi-experimenteel te evalueren. Door scholen zonder extra subsidie (bijvoorbeeld in de range 65-70% allochtone leerlingen) qua leerprestaties te vergelijken met scholen die die subsidie wel krijgen (in de range 70-75% allochtone leerlingen) kan het effect van het subsidiegeld op leerprestaties gemeten worden. Een dergelijk onderzoek is valide omdat de enige veronderstelling is dat er bij de grens van 70% niet speciaals aan de hand is waardoor die scholen onvergelijkbaar worden, hetgeen in dit geval een aannemelijke (doch niet bewijsbare) vooronderstelling is. Het onderzoek liet zien dat het subsidiegeld naar alle waarschijnlijkheid niet kosteneffectief is geweest.
Dat we met dit onderzoek niet te weten komen hoe het subsidiegeld wordt besteed en hoe het mechanisme werkt (of niet werkt) waardoor de subsidie leidt tot een hogere leerprestatie, is volgens Oosterbeek minder belangrijk. In dit geval is het voor de beleidsmaker vooral van belang te weten of de maatregel werkt en of het geld nuttig is besteed. Het is veel beter te weten wat de zwarte doos ingaat en er weer uitkomt dan te weten wat in die doos precies gebeurt. Met een andere onderzoeksaanpak weet je dat misschien wel, maar weet je niets over het uiteindelijke effect op de leerprestaties. Je hebt immers geen counterfactual waardoor het effect van de subsidie geïsoleerd kan worden van de invloed van andere causale factoren.
Oosterbeek erkent dat er bij een dergelijk onderzoek een probleem kan zijn met de externe validiteit. Zeggen dat extra geld aan dergelijke scholen nooit werkt zou een ongeoorloofde generalisering zijn. Als het echter alleen over deze maatregel voor deze scholen gaat, is er geen probleem omdat de maatregel wordt bestendigd voor dezelfde groepen scholen als in het onderzoek: de interne en externe validiteit overlappen in dat geval. Er is een mogelijke verklaring voor het feit dat de subsidie in dit geval niet werkt. Scholen die de subsidie krijgen, hebben al vrij veel financiële middelen als gevolg van andere regelingen. Het extra geld kan dan tegengestelde, 'perverse' effecten oproepen. Scholen met veel geld besteden meer aan ondersteuning en management waardoor ervaren leerkrachten minder gaan lesgeven. Er komen dan meer onervaren krachten voor de klas waardoor de leerprestaties dalen in plaats van stijgen.
De generalisering naar de stelling dat 'subsidies aan scholen' nooit werken is echter niet terecht omdat een dergelijke context van een maatregel inderdaad van bepalend is. Bij scholen met minder geld zou de maatregel bijvoorbeeld wel kunnen werken. Kennis van de context waarin de maatregelen werkzaam zijn, is dus van belang om geen ongeoorloofde generaliseringen te doen. Desalniettemin is het beeld dat Pawson en Tilley oproepen volgens Oosterbeek een karikatuur. Er wordt gedaan of in quasi-experimenteel onderzoek alleen maar naar input en output wordt gekeken. Natuurlijk is er een theoretisch kader en is het onderzoek gestructureerd rond die theorie. In principe kan experimenteel onderzoek genoeg zijn om de beleidsevaluatie te doen, maar als je geïnteresseerd bent in de verklaring van het effect en in de generaliseerbaarheid dan moet je extra informatie binnen de zwarte doos verzamelen. Dat gebeurt ook meestal. Door bijvoorbeeld onderzoeken naar een maatregel in verschillende landen en dus verschillende contexten met elkaar te vergelijken, is veel te leren over de generaliseerbaarheid van experimentele uitkomsten.
Oosterbeek refereert aan Amerikaans en Israëlisch onderzoek naar het effect van klassenverkleining op de leerprestaties. In beide landen had de klassenverkleining een positief effect op de leerprestaties, vooral op die van achterstandsleerlingen. In Nederland liet dezelfde maatregel echter geen effect zien. Dat verschil in uitkomst kon verklaard worden doordat in Nederland achterstandsleerlingen al in kleine klassen zaten. Een extra verkleining heeft dan geen effect meer. In Amerika en Israël zaten de kinderen juist in grote klassen. De verschillende contexten verklaren dus waarom de maatregel wel of niet werkt.
Het probleem van de generaliseerbaarheid is voor Oosterbeek dan ook geen fataal bezwaar tegen quasi-experimenteel onderzoek. Er is helemaal geen tegenstelling tussen de contextuele en de experimentele benadering, integendeel, in een goed onderzoek gaan ze hand in hand en vullen ze elkaar aan. Bij het doen van een goed experiment probeert de onderzoeker tegelijk de externe validiteit te karakteriseren. Dan wordt hij gedwongen de zwarte doos te openen. Een evaluatie doen die alleen in de zwarte doos kijkt zonder experimentele benadering, heeft echter geen waarde, want dat weet men niets over het uiteindelijke effect en daar gaat het toch om bij beleidsevaluatie.

Conclusie: geen eenzijdigheid
Uit het bovenstaande blijkt dat vooral methodologische eenzijdigheid bij een beleidsevaluatie leidt tot validiteitsproblemen. Als alleen wordt bestudeerd hoe het mechanisme van de maatregel uitwerkt in een specifieke context wordt kennis opgedaan van de belemmerende en bevorderende factoren van die uitwerking. Dat levert echter geen kennis op over de uiteindelijke invloed van de maatregel op dat wat met het beleid wordt beoogd. Daardoor is er geen zicht op de (kosten-)effectiviteit van de maatregel en verliest het onderzoek zijn relevantie. Als het effect van de maatregel daarentegen alleen (quasi-)experimenteel wordt vastgesteld zonder de context en het mechanisme erbij te betrekken dan wordt het onderzoek blind voor contextvariabelen die bepalend zijn voor het al dan niet werken van een maatregel. Dat leidt tot problemen met de externe validiteit: het is onduidelijk in welke contexten de maatregel wel of niet zal werken. Herhaald onderzoek geeft dan tegenstrijdige resultaten zonder dat duidelijk is waar die tegenstrijdigheden uit voortkomen en wat het oordeel over de maatregel moet zijn.
De conclusie is dat de (quasi-)experimentele benadering onontbeerlijk is, maar gecombineerd moet worden met onderzoek naar het mechanisme en de context van de maatregel. Dit verhoogt de plausibiliteit van de uitkomsten omdat die begrepen kunnen worden als gevolg van de werking van het mechanisme in de specifieke context. Dit verhoogt het inzicht in de mogelijke toepasbaarheid van een effectieve maatregel in andere contexten. Een evaluatie waarin beide elementen elkaar aanvullen zou beleidsmakers in staat stellen optimaal te leren van beleidsonderzoek. Beleid zou dan gebaseerd kunnen worden op voortschrijdend inzicht, zowel in de effectiviteit van beleid als in de verklaring van die effectiviteit.

Dit artikel verscheen in een licht gewijzigde vorm voor het eerst in de Evaluatiespecial van Basis 2004.

*Arnold Ziegelaar was projectleider bij Research voor Beleid

Literatuur
CPB, Lerend beleid: het versterken van beleid door experimenteren en evalueren, januari 2004
Ray Pawson & Nick Tilley, Realistic Evaluation, Sage Publications, London, 1997
Edwin Leuven, Mikael Lindahl, Hessel Oosterbeek en Dinand Webbink, The effect of extra funding for disadvantaged pupils on achievement, Working Paper
Hessel Oosterbeek, Voortschrijdend inzicht, Rede uitgesproken bij de aanvaarding van het ambt van hoogleraar in de Onderwijseconomie, Universiteit van Amsterdam, maart 2001

Location http://www.basis-online.nl/index.cfm/1,128,492,0,html