Skip navigation

Redactieadres:

Panteia B.V.

Postbus 7001

2701 AA Zoetermeer

T: 079 - 322 22 00

F: 079 - 343 01 01

E: redactie@panteia.nl

Het schijnheilige getal

Over kenmerken van en foutenbronnen in empirisch-statistisch onderzoek

Door drs. A. Ziegelaar en drs. T.K. Grimmius*

Bij het ontwikkelen of beoordelen van beleid maken politici, beleidsmakers en journalisten intensief gebruik van getallen. Die hebben het aureool van zekerheid, maar vaak gaat het om schattingen met inherente foutbronnen. Zonder inzicht daarin bestaat het risico dat de betekenis van getallen onjuist wordt geïnterpreteerd.

Het heilige getal...
Vaak hoor je als beleidsonderzoeker dat je onderzoek dient uit te monden in “harde” cijfers en getallen. Vanwaar deze eis? Het heeft onmiskenbaar te maken met de steeds sterkere behoefte de doeleinden en resultaten van beleid te kwantificeren. Deze wens tot kwantificering hangt samen met een meer fundamenteel gevoel. In tegenstelling tot woorden lijken getallen veel eenduidiger gedefinieerd. Niet voor niets immers is er de wetenschap van de semantiek die zich bezighoudt met de betekenis van woorden. Getallen daarentegen zijn in zichzelf duidelijk en daarom kan men er niet om heen. Een getal geeft exact de grootte van iets aan en is daarmee verre te prefereren boven vagere omschrijvingen als ‘veel’ of ‘weinig’. Bovendien zijn veel getallen uitkomsten van rekenkundige exercities en daarmee veel betrouwbaarder dan verbaal beschreven uitkomsten van kwalitatieve en meer subjectieve analyses. Kortom, een getal lijkt zekerheid te geven en dat is een groot, bijna metafysisch, goed in een onzekere wereld.

... blijkt schijnheilig
Bovengeschetste status van het getal is verbonden met het gebruik ervan in de ‘exacte’ wetenschappen. De wiskundige uitspraak “2 + 3 = 5” is logisch en daarmee buiten elke discussie. Het gaat hier echter om een formeel logische toepassing van cijfers, los van een inhoudelijke betekenis. Vaak echter zijn cijfers – ook in de exacte wetenschappen – uitdrukkingen van betekenissen die mensen aan verschijnselen hebben gegeven. Een mooi voorbeeld is het te pletter slaan van de Mars Climate Orbiter in 1999. Aan de voorbereiding van de missie werkten verschillende onderzoeksgroepen die zich bedienden van het metrische en van het Angelsaksische meetstelsel (inches, miles). Waarschijnlijk is het vergaan van de Orbiter veroorzaakt door het door elkaar halen van deze stelsels.
Een getal blijkt dus niet altijd zo eenduidig als we geneigd zijn te veronderstellen. Vaak hangt de betekenis af van een door mensen ontwikkeld betekenissysteem. Zolang dit systeem duidelijk en algemeen aanvaard is, lijkt er weinig aan de hand. Echter ook dan zijn cijfers in meer of mindere mate subjectief en dus niet altijd zeker, denk maar aan de discussie in onderwijsland over de geldigheid en objectiviteit van rapportcijfers.
 
Reductie van onzekerheid
Cijfers en getallen zijn dus geen metafysische grootheden. Ze ontlenen hun waarde aan een gemeenschappelijk betekenissysteem en zijn niet per definitie absoluut en objectief. Deze notie geldt ook voor de getalsmatige uitkomsten van empirisch-statistisch onderzoek. Dergelijk onderzoek is erop gericht uitspraken te doen over de kenmerken van een populatie, bijvoorbeeld het percentage werklozen in de beroepsbevolking.
Los van de betekenisvraag “hoe definieer je ‘werkloosheid’?”, waarover later meer, ziet de onderzoeker zich vanwege bezwaren van financiële en praktische aard voor het probleem geplaatst dat hij dit kenmerk niet bij ieder individueel lid van de populatie kan meten. Daarom wordt de meting doorgaans beperkt tot een steekproef uit de populatie. Dit impliceert dat de uitkomst van het onderzoek – getal of niet – per definitie onzeker is.
Kunnen we er dan geen waarde aan hechten? Jawel. Door juiste toepassing van statistische methoden kan de nauwkeurigheid van de steekproefuitkomst worden bepaald. Deze nauwkeurigheid bestaat uit twee elementen. In de eerste plaats een zogenoemd betrouwbaarheidsinterval waarin de geschatte daadwerkelijke populatiewaarde waarschijnlijk ligt. In de tweede plaats een kwantificering van deze waarschijnlijkheid, uitgedrukt als de kans dat de populatiewaarde daadwerkelijk in het interval ligt. Deze kwantificering wordt vaak aangeduid als ‘betrouwbaarheids-‘ of ‘zekerheidsniveau’.

Zo kan de uitkomst van het werkloosheidsonderzoek zijn dat de werkloosheid met 95% zekerheid ligt tussen 10 en 18% van de beroepsbevolking. In dit voorbeeld is er dus een kans van 5% dat de daadwerkelijke werkloosheid buiten het interval ligt. De onzekerheid van dergelijke uitspraken kan worden gereduceerd door de steekproef te vergroten. Dit gaat echter gepaard met sterk stijgende kosten.
Niet zelden wordt de steekproefomvang bepaald door kostenoverwegingen, waarbij de gebruiker zich er niet altijd van bewust is dat de resultaten mogelijk onnauwkeurig zijn doordat als gevolg van een kleine steekproef sprake is van een ‘breed’ interval. Dit wordt mede in de hand gewerkt doordat de resultaten van steekproefonderzoek doorgaans niet in termen van betrouwbaarheidsintervallen, maar als puntschattingen worden gepresenteerd. Een puntschatting komt overeen met de middelste waarde van het berekende betrouwbaarheidsinterval. In bovenstaand voorbeeld is dat 14% van de beroepsbevolking. Dit getal gaat vervolgens vaak een eigen leven leiden als een harde en zekere uitkomst.
In de grafiek is de relatie tussen steekproefomvang en de nauwkeurigheid van de onderzoeksresultaten gevisualiseerd. In de zes afgebeelde steekproeven bedraagt de (punt)schatting van de werkloosheid 700.000 personen. De nauwkeurigheid van deze schatting neemt echter af naarmate de steekproefomvang kleiner is.

Heiligschenners: foutenbronnen
Voor een goede interpretatie van de uitkomsten van empirisch-statistisch onderzoek moet de gebruiker dus in zekere mate zijn ingewijd in de hierboven geschetste kenmerken van en begrippen behorend bij dergelijk onderzoek. Daarnaast is enig zicht op inherente foutenbronnen die de validiteit van deze uitkomsten bedreigen nuttig. Uiteraard behoort het (zoveel mogelijk) voorkomen van fouten primair tot de verantwoordelijkheid van de onderzoeker, maar inzicht hierin van de gebruiker vergoot diens begrip voor de onderzoeksuitkomsten en de gebruikswaarde daarvan. Bovendien vergemakkelijkt het de communicatie met de onderzoeker. Hieronder staan we kort stil bij enkele belangrijke en regelmatig voorkomende foutbronnen.

Validiteit van het meetinstrument
De eerste belangrijke vraag is of het te meten kenmerk, bijvoorbeeld werkloosheid, op een juiste wijze is geoperationaliseerd in concrete onderzoeksvariabelen. Deze worden doorgaans door middel van een onder de steekproefpersonen af te nemen vragenlijst gemeten. Het gaat er niet alleen om dat we het te meten kenmerk operationaliseren in een op zich valide vraagstelling. Deze vraagstelling moet ook door de te bevragen steekproefpersonen als zodanig worden begrepen en beantwoord. Respondenten kunnen om strategische redenen of vanwege sociale wenselijkheid antwoorden geven die niet overeen komen met de werkelijkheid. Zo kunnen werklozen, bijvoorbeeld uit schaamte, zeggen dat ze werkend zijn. De cruciale vraag is dus of we meten wat we willen of zeggen te meten. Dit lijkt voor de hand liggend, maar in de praktijk blijkt soms dat het te meten populatiekenmerk uiterst lastig is te operationaliseren in meetbare variabelen. De gebruiker dient zich hiervan bewust te zijn en zal als opdrachtgever in voorkomende gevallen met de onderzoeker moeten overleggen over de beste operationalisatie van het te meten kenmerk. Lastig daarbij kan zijn dat deze operationalisatie niet (geheel) overeenkomt met eerder geformuleerde beleidsdoelen. Het verdient dan ook aanbeveling om alvorens door empirisch-statistisch onderzoek te monitoren beleidsdoelen te formuleren, na te gaan op welke wijze ze het beste kunnen worden gemeten.

Representativiteit van de steekproef
Met ‘representativiteit’ hebben we een begrip bij de kop dat te pas en te onpas wordt gebruikt. De essentie van het begrip is dat de steekproef een goede afspiegeling vormt van de populatie zodat de steekproefuitkomsten daarop kunnen worden overgedragen. Representativiteit kun je vooraf nooit voor honderd procent garanderen. De beste garantie voor het realiseren van representativiteit is toepassing van de kanssteekproef, of te wel het aselect trekken van de steekproefpersonen. Er bestaat echter altijd een kleine kans dat een dergelijke steekproef niet representatief is. Overigens is de kanssteekproef niet alleen vanwege de representativiteit van belang. Alleen bij een dergelijke steekproef is het mogelijk de onderzoeksuitkomsten met een bepaalde mate van nauwkeurigheid (zie hierboven) te generaliseren voor de gehele populatie.
‘Aselect’ wil zeggen dat ieder lid van de populatie een bekende kans groter dan nul heeft om in de steekproef te worden getrokken. Deze kans behoeft echter niet noodzakelijkerwijs voor ieder gelijk te zijn. Dat hangt af van het steekproefontwerp. In een zogenoemde enkelvoudig aselecte steekproef is de kans voor ieder lid gelijk en mag worden verwacht dat de steekproef een goede afspiegeling vormt van de populatie. Er zijn echter vele andere methoden van steekproeftrekking zoals gestratificeerde en getrapte trekking, trekking met ongelijke kansen en combinaties van verschillende trekkingsmethoden. Omdat dit soort trekkingen in de regel de ‘1:1 relatie’ tussen populatie en steekproef verstoort is de steekproef niet zonder meer representatief. Representativiteit van dergelijke steekproeven wordt verkregen door de onderzoeksresultaten terug te wegen naar de populatie. Hier ligt meteen een methodische fout op de loer. Je zult degenen – ook onderzoekers! – de kost moeten geven die het wegen van een niet enkelvoudig aselecte steekproef over het hoofd zien. Hierdoor kunnen onderzoeksresultaten in meer of minder ernstige mate worden vertekend.
Of de resultaten van het steekproefonderzoek representatief zijn voor de populatie hangt niet zozeer af van de trekking van de steekproefpersonen zelf. Die kan men doorgaans redelijk beheersen. Dit geldt echter minder voor de mate waarin de getrokken steekproefpersonen aan het onderzoek deelnemen. Wanneer sprake is van zogenoemde selectieve non-respons, dat wil zeggen dat de reden van niet-deelname samenhangt met de gemeten kenmerken, dan kan dit de onderzoeksresultaten vertekenen. Als bijvoorbeeld werklozen deelname aan onderzoek weigeren en werkenden wel mee doen ontstaat een onderschatting van het werkloosheidspercentage. Door reparatieslagen kan men proberen deze onderschatting zoveel mogelijk te reduceren, maar feit blijft dat een dergelijke reparatie de ontbrekende feitelijke waarden niet vervangt. Een non-respons analyse kan zicht geven op de gevolgen van de non-respons voor de onderzoeksresultaten.

Conclusie
De getalsmatige uitkomsten van steekproefonderzoek hebben het aureool een hoge mate van eenduidigheid en zekerheid te bieden. Immers, het gaat niet alleen om getallen. Ze komen ook nog eens tot stand door toepassing van formele statistische formules. In het voorafgaande is betoogd dat aan dergelijke getallen per definitie een bepaalde mate van onzekerheid kleeft. Deze heeft te maken met validiteitsproblemen en statistische onzekerheid. Het behoort tot het vakmanschap van de onderzoeker deze onzekerheid zoveel mogelijk te reduceren en de gebruiker in kennis te stellen van de nauwkeurigheid van de onderzoeksuitkomsten. Nogal eens ontbreekt een fatsoenlijke onderzoeksverantwoording. De gebruiker op zijn beurt zou zich open moeten stellen voor deze kennis en deze niet moeten zien als nutteloze ballast die afbreuk doet aan de door hem gewenste, op harde getallen gebaseerde, zekerheid. Doet hij dit niet dan bestaat het risico dat hij vroeg of laat tot het inzicht komt dat zijn beleid is gebaseerd op schijnzekerheid en daardoor ongelukkig ‘landt’.

Dit is een licht bewerkte versie van een artikel dat eerder in Basis 2004, nummer 4 verscheen.

*Arnold Ziegelaar was projectleider bij Research voor Beleid, Ton Grimmius  is lid van het directieteam van Research voor Beleid

Location http://www.basis-online.nl/index.cfm/1,128,497,0,html