Wetenschap
Big Data, zonder reclame
Statisticus Aad van der Vaart kreeg vrijdag een Spinozapremie. Zijn werk maakt het mogelijk grote datasets beter te gebruiken, bijvoorbeeld om de rol van genetica bij ziektes te bepalen
Bart Braun
donderdag 18 juni 2015

Hoe ik in de statistiek belandde? Dat is eigenlijk toeval. Na het behalen van je kandidaatsexamen kon je hier in Leiden als student-assistent aan de slag bij toegepaste wiskunde. Dat was een half jaar eerder dan bij de zuivere wiskunde. Die trok ook, maar ik kon het geld goed gebruiken. En de wiskunde die een relatie heeft met de buitenwereld, trok me toch ook wel aan.’

Het was het begin van een buitengewoon succesvolle carrière. Van der Vaart promoveerde in Leiden in 1987, werd hoogleraar, eerst aan de Vrije Universiteit en later in Leiden. Hij werd lid van de Koninklijke Nederlandse Akademie der Wetenschappen, haalde een prestigieuze ERC-beurs van 2,2 miljoen binnen. En afgelopen vrijdag stond hij op een podium in Den Haag, waar beurzenverstrekker NWO hem een Spinozaprijs toekende. Dat is de hoogste Nederlandse prijs voor wetenschap, en gaat gepaard met een vrij te besteden geldbedrag van 2,5 miljoen.

Van der Vaart krijgt de prijs vooral voor het op de kaart zetten van de zogeheten Bayesiaanse niet-parametrische statistiek. Bayesiaanse statistiek is de tak van waarschijnlijkheidsleer die gebruikmaakt van een aanname.

Een voorbeeld: in Nederland worden gemiddeld zo’n twee mensen per jaar getroffen door de bliksem. Er zijn 17 miljoen Nederlanders, en bij gebrek aan verdere informatie is de kans dat u volgend jaar door de bliksem getroffen wordt dus één op 8,5 miljoen.

Dat klopt echter niet. Zo zijn mannen veel vaker bliksemslachtoffer dan vrouwen, vermoedelijk omdat ze te eigenwijs zijn om te schuilen, vaker in de buitenlucht werken, en vaker aan buitenactiviteiten als vissen en golfen doen. De kans dat u getroffen wordt door bliksem is dus anders, gegeven dat u een vrouw bent, of gegeven dat u een man bent die graag gaat golfen tijdens onweer omdat het dan zo lekker rustig is op de baan. ‘De Bayesiaanse statisticus bouwt zulke aannames in’, aldus Van der Vaart.

Zulke aannames maken het mogelijk om bepaalde problemen beter, of zelfs maar überhaupt, aan te pakken. Neem bijvoorbeeld de genetica van ziekte. Je kan bij kankerpatiënten tumorcellen afnemen, en kijken welke genen in die cellen aanstaan. Dat zijn al gauw een paar duizend genen per tumor. Slechts een paar daarvan staan in alle genen aan, en een gedeelte is aangeschakeld in heel veel tumoren. Hoeveel tumoren moet je onderzoeken om een bepaald gen aan die vorm van kanker te koppelen? En wat is dan de kans dat je het gen ten onrechte beschuldigt? Als je op grond van dingen die je weet over genetica of bepaalde genen aannames doet, wordt die vraag stukken beter behapbaar.

Ander voorbeeld: een PET-scan. Dat is geen foto, maar het resultaat van krachtig rekenwerk aan de metingen van een ring van detectoren. Het radioactieve goedje dat wordt ingespoten bij de patiënt vervalt, en dat verval resulteert erin dat in de patiënt twee zogeheten gammafotonen in precies tegenovergestelde richtingen wegvliegen. De detectoren meten die fotonen, en dan weet je dus dat het vervallende atoom ergens op de lijn tussen de twee detectoren zat. Maar waar?

Tel daarbij allerlei narigheid op als verstrooiing van de fotonen in het weefsel van de patiënt en achtergrondstraling, en al gauw wordt het onmogelijk om een 3D-plaatje te reconstrueren uit je tweedimensionale metingen. Door zo’n Bayesiaanse aanname te doen – we weten al een een hoop van hoe het te scannen orgaan eruit ziet – kan je wel tot een plaatje komen. Wiskundigen en artsen willen vervolgens graag weten hoe groot de kans is dat dat plaatje niet klopt, en ook dat is iets waarmee Van der Vaart zich bezighoudt.

‘Het werken met zulke grote datasets wordt steeds belangrijker’, zegt hij. ‘Ik houd niet zo van de term “Big Data”; mensen associëren dat vooral met wat Google en Facebook doen. Het is leuk om toegepast te werken, zolang het maar niet gaat over hoe we de beste reclame op je scherm kunnen aanbieden. De Bayesiaanse statistiek biedt interessante ingangen in vragen met grote datasets. Ik ben er vooral in beland omdat er een groot gat gaapte: werkt het wel, en zo ja, hoe?’

Wat voor gat? ‘In de statistiek heb je het begrip parameter; een eigenschap die het systeem dat je onderzoekt helpt bepalen. Dat kan een enkel getal zijn, bijvoorbeeld het percentage van de populatie dat een bepaalde ziekte heeft. In onze modellen krijg je te maken met steeds ingewikkelder parameters: bijvoorbeeld een plaatje, of de effecten van heel veel genen samen.’

Voor echt grote modellen is het beter om niet van tevoren vast te leggen hoeveel parameters er zijn; vandaar het ‘niet-parametrische’ gedeelte van Van der Vaarts vakgebied. ‘Voor de Bayesiaanse statistiek was voor het jaar 2000 vrijwel niks bekend over zulke grote modellen. De gedachte was dat het nooit zou werken. Ons werk liet zien: het kan wel, als je het maar op de juiste manier doet. Het moet gezegd: voor die tijd was het ook minder interessant om zulke vragen te stellen, want je kon het toch niet uitrekenen. De ontwikkelingen bij supercomputers maakten dat toen pas mogelijk.’

Toch gaat de statisticus geen supercomputer kopen van zijn prijzengeld. Om te beginnen zet een Spinozapremie daarvoor geen zoden aan de dijk. De Leidse sterrenkundige Simon Portegies Zwart diende in april een petitie in dat Nederland een krachtiger supercomputer moet kopen. Geschatte kosten: Honderd miljoen euro, oftewel veertig Spinozaprijzen. ‘Bovendien zijn er aparte geldstromen voor dat soort aankopen. En ik heb de data niet.

‘In NRC Handelsblad stond dat ik het prijzengeld eigenlijk teveel vond. Wat ik bedoelde, was dat als je tweeëneenhalf miljoen in mijn vakgebied investeert, dat misschien wel slimmer kan. Door het over meerdere mensen te spreiden, bijvoorbeeld. Die subtiliteit kwam niet zo over, geloof ik. Wat ik wel met het geld ga doen? Dat gaat in personeel zitten. We ontwikkelen hier wiskunde, en daar heb je mensen voor nodig. Het gaat in elk geval niet gebeuren dat ik de grote baas word, die alleen maar andere mensen aanstuurt.’

‘Wat ik graag zou zien dat de statistiek meer als een discipline gezien wordt. We zijn met een klein groepje statistici hier in het Mathematisch Instituut, en er zitten er nog wat in het Leids Universitair Medisch Centrum en bij Sociale Wetenschappen. We werken al samen aan een opleiding Statistical Science, maar het zou nog verder kunnen gaan. Dat zie je in de VS bijvoorbeeld wel: daar heb je echte gebouwen met statistici erin. Die doen fundamenteel onderzoek, maar zijn ook aanspreekbaar voor andere onderzoekers. Maar ja, in mijn brief over de Spinozapremie staat dat het geld in vijf jaar op moet, en zoiets groots kun je niet in vijf jaar doen. Ook de mensen die ik aanneem, zullen na die vijf jaar moeten vertrekken; de universiteit zal ze vast niet allemaal een vaste aanstelling willen geven. Je kun niet permanent iets opbouwen.’