Big data kan niet zonder statistiek
Data science en statistiek zijn nauw met elkaar verbonden, zegt Spinozawinnaar en hoogleraar Stochastiek Aad van der Vaart. We praten met hem over de big data-hype, genoomonderzoek en samenwerking met andere vakgebieden. ‘Statistiek helpt overal waar data niet perfect is.’
Je hoort weleens: data science is niet echt nieuw, het is eigenlijk gewoon statistiek. Bent u het daarmee eens?
‘Ja, als statisticus zeker. Er is altijd al data geweest, en om die te analyseren was statistiek nodig. Er komt wel steeds meer data beschikbaar, maar ook dat is niet iets van de laatste paar jaar. Zo’n vijftien jaar geleden hadden we het al over een data-explosie, dat is toen al begonnen. En tien jaar geleden had je al mensen die zeiden: als we een data-analyse doen op alle gegevens die verzekeringsmaatschappijen hebben verzameld, hebben we straks geen dokters meer nodig.’
Maar zo eenvoudig is het niet?
‘Nee, het verbaast me hoe makkelijk er in de big data-hype – vooral buiten de wetenschap – soms wordt gedaan over het analyseren van data. Zo van: als we maar heel veel data hebben, is het gewoon een kwestie van patronen vinden, klaar. Maar het ligt natuurlijk ingewikkelder. We moeten niet alleen correlaties vinden, maar vooral ook causaliteit. Voor het vinden van nieuwe behandelingen in de medische wetenschap bijvoorbeeld, is het niet genoeg een patroon in de data te zien. Je moet er ook voor zorgen dat de mensen die je vergelijkt niet stiekem op allerlei punten verschillen.’
En daar is statistiek voor nodig?
‘Precies. Satistiek helpt overal waar data niet perfect is, en dat is bijna altijd het geval. Bijvoorbeeld in medisch onderzoek, als je de hersenen van mensen wilt vergelijken met behulp van een PET-scanner. Bij die scans zit heel veel ruis. Om te beginnen in het fysische proces zelf, radioactiviteit, verstrooiing van deeltjes. Maar je hebt ook te maken met variatie tussen mensen, in hun genen, maar ook bijvoorbeeld in de dingen die ze de avond ervoor hebben gedaan. Of in de kleine bewegingen die ze maken in de scanner. Al die ruis wil je eruit filteren, om zo het signaal te vinden dat echt het verschil uitmaakt. Daar gebruik je statistiek voor.’
Vraagt big data om nieuwe methoden in de statistiek?
‘Ja. Er is steeds meer data beschikbaar en er komen ook steeds meer variabelen bij, waardoor je ook weer allemaal nieuwe verbanden krijgt. Dus vaak wordt het er alleen maar ingewikkelder op. Alles hangt met alles samen. In de statistiek proberen we nieuwe methoden te ontwikkelen om toch verbanden te vinden in al die complexe data.’
U doet veel onderzoek naar Bayesiaanse statistiek. Wat is dat precies?
‘Het is een van de twee paradigma’s van de statistiek. Bayesiaanse statistiek is een heel mooie manier om conclusies te formuleren in termen van onzekerheden. Dat gebeurt door de onzekerheden die je hebt voordat je de data hebt verzameld, te formuleren in een zogenaamde a-priori kansverdeling, en die vervolgens te updaten met data. Met deze vorm van statistiek beschrijven we de wereld dus in kansen, nog voordat de data verzameld is. En op het moment dat er nieuwe data komt, passen we die kansen aan.’
Kunt u een voorbeeld geven?
‘Stel: je wordt getest op een bepaalde ziekte en het resultaat geeft aan dat je de ziekte hebt. Hoe groot is dan de kans dat je echt ziek bent? Om dat te weten, kijken we naar de kans op een false positive (de kans dat de test aangeeft dat je ziek bent, terwijl dat eigenlijk niet zo is). Maar wat je in de Bayesiaanse statistiek ook meeweegt, is de a-priori informatie: hoeveel mensen in de totale populatie de ziekte hebben. Als een ziekte heel zeldzaam is, is de kans dat iemand eraan lijdt heel klein - zelfs als het testresultaat iets anders suggereert. Artsen werken in praktijk ook volgens dit principe: die slaan niet meteen alarm als ze een symptoom zien dat op een zeldzame ziekte zou kunnen wijzen, omdat het onwaarschijnlijk is dat iemand de ziekte echt heeft. Bayesianen wegen de kansen op deze manier bij iedere analyse, ook als het gaat om grote hoeveelheden complexe data.’
En in wat voor soort onderzoek wordt dat toegepast?
‘Bijvoorbeeld in genoomonderzoek. Sinds een jaar of vijftien kunnen onderzoekers een volledig genoom meten, dus al iemands genen. Op het ogenblik wordt veel gezocht naar hoe al die genen samenwerken in netwerken en welke genen actief zijn in een bepaalde situatie, bijvoorbeeld bij een bepaalde ziekte. Je zoekt dus naar verbanden tussen die genen, maar omdat er zoveel genen zijn, is dat heel complex. Door gebruik te maken van Bayesiaanse statistiek kunnen we, bijvoorbeeld, als a-priori-informatie toevoegen dat van alle genen in een bepaalde situatie maar een klein aantal belangrijk is. En nog belangrijker: we kunnen informatie uit eerder onderzoek, vaak beschikbaar in databases, gemakkelijker inbouwen.’
Werkt u ook weleens samen met onderzoekers uit een heel andere hoek?
‘Ja, ik heb bijvoorbeeld ook onderzoek gedaan met historisch demografen. Met hen deed ik een project waarin we onderzoek deden naar de levensduur van mensen in de 17e eeuw. Uit kerkregisters was er allerlei data beschikbaar over geboorten, huwelijken en sterfte, en op basis daarvan wilden de demografen inschatten hoe oud mensen in die tijd werden. Maar de data was onvolledig: van lang niet iedereen was de sterftedatum terug te vinden. Om toch zo nauwkeurig mogelijk in te schatten hoe oud mensen werden, was statistische correctie nodig.’
Is er naar uw idee genoeg samenwerking tussen statistici en onderzoekers uit andere disciplines?
‘Er wordt al veel samengewerkt. Dat is ook wel eigen aan de statistiek, denk ik, want je kunt het in heel veel vakgebieden gebruiken. Maar ik denk dat het nog niet genoeg is. Vanuit mijn perspectief zeg ik: er moeten meer statistici komen, die een deel van hun tijd fundamenteel onderzoek doen en die daarnaast samenwerken met onderzoekers uit andere disciplines. Daar wil ik ook een deel van de middelen uit mijn Spinozapremie voor inzetten: meer statistici aanstellen en banden smeden met andere vakgebieden.’
Hoe verwacht u dat uw vakgebied zich in de toekomst zal ontwikkelen?
‘Het lijkt erop dat we op een moment staan waarop computers echt iets belangrijks kunnen toevoegen. Daar zit nu zoveel rekenkracht, dat er echt nieuwe dingen kunnen gaan gebeuren. Statistiek blijft dan nodig, misschien juist wel meer dan ooit. Denk bijvoorbeeld aan de zelfrijdende auto: zo’n auto moet allerlei sensoren hebben en heel veel data verwerken. In al die data zit natuurlijk heel veel variatie en ruis. Om daar controle op te houden, is statistiek hard nodig.’
(JvdB)
Aad van der Vaart promoveerde in 1987 aan de Universiteit Leiden. Daarna werkte hij in College Station (Texas), Parijs en Berkeley. Ook was hij visiting professor in Harvard en Seattle. Lange tijd was Van der Vaart als hoogleraar verbonden aan de Vrije Universiteit. Sinds 2012 is hij hoogleraar Stochastiek aan de Universiteit Leiden, waar hij sinds 2015 ook Wetenschappelijk Directeur is van het Mathematisch Instituut. Van der Vaart won in 1988 de C.J. Kok-prijs en in 2000 de Van Dantzigprijs. In 2015 ontving hij de Spinozapremie voor zijn baanbrekende onderzoek in de statistiek.
In deze serie interviews komen onderzoekers van het Leiden Centre of Data Science (LCDS) aan het woord. LCDS is een netwerk van onderzoekers uit verschillende wetenschappelijke disciplines, die gebruik maken van innovatieve methodes voor het omgaan met grote hoeveelheden data. Het doel van samenwerking tussen deze onderzoekers is het vinden van slimme oplossingen voor wetenschappelijke en maatschappelijke kwesties.