Wetenschap
Goede statistiek moet een stresstest kunnen doorstaan
Voor de meest uiteenlopende onderzoeken zijn er standaard statistiekmethodes te gebruiken. Dat lijkt handig, maar in hoeverre zijn die methodes betrouwbaar? ‘Er zijn legio studies die gewoon prut zijn.’
Mark Reid
donderdag 7 maart 2024
Foto Transport For NSW

‘Als je in de auto rijdt, hoef je ook niet te weten wat er onder de motorkap gebeurt’, vertelt hoogleraar klinische epidemiologie Rolf Groenwold. ‘Je weet dat als je het gaspedaal intrapt de auto vooruitgaat, en met het pedaal ernaast rem je. Ik denk dat heel veel mensen op die manier ook statistiek gebruiken. Ze klikken op wat knoppen en dan komt het wel goed.’

Voor simpele statistische test kan dat vaak nog wel, maar als de data die je onderzoekt ingewikkelder wordt, duiken er volgens Groenwold wel wat problemen op. ‘In de praktijk hebben mensen vaak rommelige data. Zeker binnen medisch onderzoek zie je dat mensen gegevens uit verschillende bronnen bij elkaar brengen. Je neemt apotheekgegevens, verzekeringsgegevens, ziekenhuisgegevens en cijfers van het CBS. Dat knoop je allemaal elkaar en op die data worden vervolgens ingewikkelde analyses gedaan.’

Maar hoe weet je nou of de analyse die je wil gebruiken geschikt is om je rommelige data te onderzoeken, zeker als je zelf misschien geen statistiek-expert bent? Om te testen in hoeverre je statistiek goede uitkomsten biedt, zijn zogeheten simulatiestudies bedacht.

‘In de medische wetenschap werk je vaak met rommelige datasets’

Dat gaat zo: je genereert een ingewikkelde kunstmatige dataset met bepaalde eigenschappen en verbanden. Vervolgens kijk je of je statistische methode erin slaagt die verbanden terug te vinden. Lukt dat? Dan is je methode geschikt en kan de volgende onderzoeker die echte data onderzoekt jouw hapklare methode toepassen.

Dat is althans het idee.

Samen met promovendi Kim Luijken en Anna Lohman besloot Groenwold om een aantal bekende simulatiestudies over te doen, om te kijken of die resultaten wel te reproduceren waren. Dat bleek niet bij elke studie even makkelijk, concluderen ze in een artikel in Royal Society Open Science.

‘Sommige simulaties waren best acceptabel te reproduceren’, zegt de hoogleraar. ‘Maar bij sommigen kwamen we erachter dat dat eigenlijk niet mogelijk was. Er staat bijvoorbeeld onvoldoende duidelijk beschreven hoe de testdata zijn gegenereerd, hoe de methode is toegepast of hoe is omgegaan met statistieksoftware.’

En dat is een probleem, want de eindgebruikers van de statistische methodes vertrouwen er wel op dat die simulaties degelijk zijn uitgevoerd. Dat blijkt nu in sommige gevallen niet goed te controleren.

Groenwold: ‘Er zijn simulatiestudies die maar heel oppervlakkig getest zijn. Dan zegt men: “Kijk, mijn methode doet wat hij zou moeten doen. Op basis van de data zou het model 23 als uitkomst moeten geven en dat doet hij ook. Hoera!” Maar als je data genereert op basis van de aannames die onder je model liggen dan is het niet gek dat je ontdekt dat het ook goed werkt.’

Daarmee stipt Groenwold het grootste probleem aan. Want wat je wil weten is niet alleen of een model werkt, maar ook wanneer het juist niet meer werkt. Zijn je conclusies nog wel kloppend als maar heel kleine datasets gebruikt, of als de gegevens niet mooi verdeeld zijn? Om de autometafoor te gebruiken: hoe hard kun je rijden voordat je de controle over het stuur verliest?

‘Er zijn nog legio simulatiestudies die waarschijnlijk gewoon prut zijn’

Volgens Groenwold moeten de modellen aan een stresstest worden onderworpen. ‘In de medische wetenschap werk je vaak met rommelige datasets vol meetfouten of ontbrekende gegevens. Voor elk van die problemen moet je ingewikkelde statistiek gebruiken om ervoor te compenseren. Ik kan me voorstellen dat mensen dan naar simulatiestudies kijken welke correcties je moet uitvoeren en al die methodes op elkaar stapelen. Maar bijna niemand heeft in een simulatie gekeken of de statistiek nog wel werkt als je dat allemaal combineert.’

Dergelijke stresstests worden in nieuwe simulaties al meer uitgevoerd. Maar bij een aantal studies bleek niet meer te achterhalen waar de beperkingen liggen, terwijl ze nog steeds worden gebruikt als standaardmethodes.

‘Ik hoop dat ons onderzoek eraan bijdraagt dat mensen toch kritischer kijken naar simulatiestudies en er niet meer blind op vertrouwen. De studies waar wij naar gekeken hebben waren bekende studies die waarschijnlijk nog wel enige controle hebben ondergaan. Maar er zijn nog legio simulatiestudies die niet zo vaak geciteerd worden en waarschijnlijk gewoon prut zijn.

‘Ik zeg niet dat mensen perfect moeten weten hoe alle statistiek in elkaar zit. De oplossing is volgens mij om statistici en epidemiologen meer te betrekken bij onderzoek. Die kunnen de beperkingen van modellen beter aangeven en dan kun je tests doen die in ieder geval goed genoeg zijn.’