Psychologen stuntelen met statistiek Slecht onderzoek wegens slordigheid en gebrek aan kennis
Statistiek is niet alleen een struikelblok voor studenten. Psychologiepromovendi hebben elementaire methodes niet onder de knie, blijkt uit een Gronings proefschrift. En vermoedelijk zitten wel meer wetenschappers in hetzelfde schuitje.
DOOR THOMAS BLONDEAU De psycholoog heeft het niet makkelijk. Hij heeft geen kooitje met mensen waarmee hij kan experimenteren. En alle mensen bij je onderzoek betrekken is ook zoiets. Daarom moet er gekozen voor een steekproef. De gegevens uit die proef moeten vervolgens door een statistische zeef zodat ze ook gelden voor een grotere groep.
Voor dat generaliseren bestaan verschillende technieken. Veruit de meest gebruikte is de significantietoets. Deze wordt gebruikt om na te gaan of het effect ook op basis van toeval had kunnen optreden. Stel dat een onderzoeker wil weten of mannen groter zijn dan vrouwen. Na een steekproef met significantietoets kan blijken dat mannen significant langer zijn dan vrouwen. Maar zo’n uitkomst zegt niet hoe groot het verschil is. Je stelt alleen of iets zo is of niet. En dat gebeurt meestal met te veel stelligheid.
De significantietoets ligt al decennialang onder vuur. Uit een pas verschenen proefschrift van de Groningse psycholoog Rink Hoekstra is gebleken dat net door veelvuldig gebruik van die toets er veel statistische fouten staan in psychologisch wetenschappelijk onderzoek. Voor zijn proefschrift liet Hoekstra dertig promovendi, ook Leidse, berekeningen uitvoeren. Die promovendi deden lang niet alles volgens het boekje. Na afloop zeiden ze dat slordigheid en een gebrek aan kennis hun parten had gespeeld.
Hoekstra: ‘De meeste promovendi vonden het lastig bekeken te worden, en waren zich bewust van het feit dat ze waarschijnlijk de analyses niet zo hadden uitgevoerd als hun ooit was aangeleerd. Toch gaven ze aan dat het soort taken vergelijkbaar was met de taken die zij normaal gesproken uitvoerden. Blijkbaar ervaren zij het gevoel dat ze dit soort taken dus niet optimaal kunnen uitvoeren tijdens hun normale werk niet als storend of als storend genoeg.’
Waar zou deze slordigheid vandaan komen? ‘Bij doorvragen wist men slecht hoe men de belangrijke onderdelen van de analyses zou moeten interpreteren. Mijn verklaring hiervoor is tweeledig: enerzijds is dit gedrag aangeleerd en zijn er te weinig krachten om het af te leren, anderzijds is het soms ook prettiger om stellig te kunnen zeggen hoe het zit, dan om je uitspraken genuanceerder te doen, ook al is dat laatste eigenlijk wenselijker.’
Willem Heiser is Leids hoogleraar statistische methoden en hoofd van de sectie methoden en technieken, evenals van het instituut psychologie. Hij legt uit waarom de bekritiseerde toets nog steeds gebruikt wordt. ‘Omdat hij het antwoord geeft op de vraag “Is dit effect groot genoeg, gezien de gebruikte steekproefgrootte, en aannemende dat de waarnemingen onafhankelijk van elkaar zijn, om vol te kunnen houden dat er geen sprake is van een toevallig effect?” Hij geeft geen antwoord op tal van andere vragen, waaronder, “Is dit een belangrijk effect?” Maar met een significant effect kan een onderzoeker wel claimen dat hij tenminste iets gevonden heeft.’
Jacqueline Meulman, Leids hoogleraar datatheorie voegt daaraan toe: ‘Naar mijn beste weten krijgen psychologiestudenten in de cursussen statistiek het gebruik van de effectgrootte onderwezen. Als promovendi psychologie nog klakkeloos de significantietoets gebruiken, moet dat aan hun proefschriftbegeleiders worden verweten. En dat zijn meestal geen methodologen of statistici. Vergeleken bij andere disciplines met dezelfde vraagstellingen, bijvoorbeeld de pedagogiek, doet de psychologie het in vergelijking veel beter. Ik hoop dat de Groningse promovendus daar ook naar gekeken heeft.’
‘Toevallig heb ik onderzoekers binnen de psychologie onderzocht’, zegt Hoekstra. ‘Dit betekent echter zeker niet dat het daarbuiten beter gaat. Eerlijk gezegd verwacht ik in die vakgebieden waar de significatietoets een prominente rol heeft - alle gedragswetenschappen, de geneeskunde, biologie - vergelijkbare effecten.’
In zijn proefschrift pleit hij voor betere richtlijnen en betere statistische kennis bij zowel studenten, docenten, reviewers en schrijvers van handboeken. Voor een betere interpretatie van data moet er veel veranderen. Hoe ziet hij dat voor zich? Meer uren statistiek? ‘Belangrijker dan de kwantiteit lijkt me wat er verder in de opleiding mee gedaan wordt. Als alles wat er in de statistieklessen wordt aangeleerd weer wordt afgeleerd bij de meer praktisch gerichte vakken zullen de meeste studenten hun gedrag aanpassen aan de praktijk. Een eventuele verandering moet dus niet alleen in de inhoud van de statistiekvakken worden gezocht, maar meer in de gehele opleiding.’
Maar heeft iedere psycholoog in zijn latere loopbaan wel behoefte aan statistiek? Wat moet een therapeut daarmee? Waarom niet meer statistiek voor de toekomstige onderzoekers en minder voor de klinisch psycholoog in de dop? Heiser: ‘Dat de meerderheid van de psychologiestudenten in hun beroepsuitoefening geen statistiek nodig heeft, is een aanname die niet klopt met de trend dat steeds meer beroepen evidence-based worden, en niet alleen de medische beroepen. Alle psychologen die in hun beroep met interventies te maken krijgen, zoals klinisch psychologen, onderwijspsychologen, organisatiepsychologen, etcetera moeten steeds vaker zich er zelf van kunnen vergewissen dat hun interventie door wetenschappelijk onderzoek geschraagd is. Het hoort bij hun beroepscode. Zij moeten hun literatuur bijhouden en daaruit kunnen beoordelen wat de waarde en de onzekerheid van een interventie is, dus precies de dingen waar Hoekstra het in zijn proefschrift over heeft.’
Het gebrek aan statistische vaardigheid heeft al tot actie geleid. Verleden maand startte in Leiden de master Statistical Science for the Life and Behavioural Sciences, een nationale primeur, mede opgericht door Heiser en Meulman. Het is een samenwerkingsproject van verschillende universiteiten en academische ziekenhuizen. Zo kan statistiek onderwezen worden uit sociale, wiskundige, medische en landbouwkundige hoek.
‘Andere vakgebieden zijn, denk ik, niet veel beter’
Meulman: ‘En dat zijn meestal geen methodologen of statistici. Vergeleken bij andere disciplines met dezelfde vraagstellingen, bijvoorbeeld de pedagogiek, doet de psychologie het in vergelijking veel beter. Ik hoop dat de Groningse promovendus daar ook naar gekeken heeft.’
‘Toevallig heb ik onderzoekers binnen de psychologie onderzocht’, zegt Hoekstra. ‘Dit betekent echter zeker niet dat het daarbuiten beter gaat. Eerlijk gezegd verwacht ik in die vakgebieden waar de significatietoets een prominente rol heeft - alle gedragswetenschappen, de geneeskunde, biologie - vergelijkbare effecten.’
In zijn proefschrift pleit hij voor betere richtlijnen en betere statistische kennis bij zowel studenten, docenten, reviewers en schrijvers van handboeken. Voor een betere interpretatie van data moet er veel veranderen. Hoe ziet hij dat voor zich? Meer uren statistiek? ‘Belangrijker dan de kwantiteit lijkt me wat er verder in de opleiding mee gedaan wordt. Als alles wat er in de statistieklessen wordt aangeleerd weer wordt afgeleerd bij de meer praktisch gerichte vakken zullen de meeste studenten hun gedrag aanpassen aan de praktijk. Een eventuele verandering moet dus niet alleen in de inhoud van de statistiekvakken worden gezocht, maar meer in de gehele opleiding.’
Maar heeft iedere psycholoog in zijn latere loopbaan wel behoefte aan statistiek? Wat moet een therapeut daarmee? Waarom niet meer statistiek voor de toekomstige onderzoekers en minder voor de klinisch psycholoog in de dop? Heiser: ‘Dat de meerderheid van de psychologiestudenten in hun beroepsuitoefening geen statistiek nodig heeft, is een aanname die niet klopt met de trend dat steeds meer beroepen evidence-based worden, en niet alleen de medische beroepen. Alle psychologen die in hun beroep met interventies te maken krijgen, zoals klinisch psychologen, onderwijspsychologen, organisatiepsychologen, etcetera moeten steeds vaker zich er zelf van kunnen vergewissen dat hun interventie door wetenschappelijk onderzoek geschraagd is. Het hoort bij hun beroepscode. Zij moeten hun literatuur bijhouden en daaruit kunnen beoordelen wat de waarde en de onzekerheid van een interventie is, dus precies de dingen waar Hoekstra het in zijn proefschrift over heeft.’
Het gebrek aan statistische vaardigheid heeft al tot actie geleid. Verleden maand startte in Leiden de master Statistical Science for the Life and Behavioural Sciences, een nationale primeur, mede opgericht door Heiser en Meulman. Het is een samenwerkingsproject van verschillende universiteiten en academische ziekenhuizen. Zo kan statistiek onderwezen worden uit sociale, wiskundige, medische en landbouwkundige hoek.