Of het nu gaat om geneeskunde, milieu, taalwetenschap, sterrenkunde of biologie, data science is een vaste waarde geworden in bijna alle disciplines van wetenschappelijk onderzoek. Grote databestanden worden aan elkaar gekoppeld en met slimme algoritmes wordt er gespeurd naar onvermoede patronen die nieuw licht werpen op belangrijke vraagstukken. Dit kan leiden tot nieuwe geneeswijzen, groenere brandstoffen, een beter begrip van het heelal of nieuwe technologie. 'Een urgent voorbeeld is de verwerking en interpretatie van gegevens die worden geleverd door een Covid-app of Covid gerelateerde berichten op social media zoals Twitter', vertelt Wessel Kraaij, directeur van het onderzoeksprogramma Data Science. ‘De app registreert bijvoorbeeld risicogedrag en mogelijke symptomen van het coronavirus bij ruim 200.000 gebruikers uit het hele land. Hiermee kunnen we een beter beeld krijgen van hoe de epidemie met het coronavirus zich in een regio ontwikkelt en kan er bijna dagelijks updates worden gegeven over relevante kwesties.’
Brandpunt van data science
De Universiteit Leiden speelt een belangrijke rol op het gebied van data science. Sinds de oprichting in 1575 verzamelen we gegevens in bibliotheken, musea, laboratoria, ziekenhuizen en in de Sterrewacht. En decennia voordat data science een buzzword werd, was het statistisch onderzoek in Leiden al in volle gang. 'Met data science probeer je in een dataset tussen alle ruis het echte signaal te vinden. Om dat te kunnen doen is een solide basis van wiskunde en statistiek nodig', zegt Aad van der Vaart, hoogleraar Stochastiek en Spinoza-laureaat. Leiden staat dan ook bekend om de wiskundige, fundamentele aanpak van data science door statistiek met informatica te combineren.
En de universiteit blijft het veld uitbreiden. Zo werd onder leiding van hoogleraar Barend Mons enkele jaren geleden de internationale standaard FAIR ontwikkeld voor het toegankelijk en herbruikbaar maken van gegevens. Leiden doet ook al lang onderzoek naar machine learning; zelflerende computerprogramma’s die worden gevoed met gegevens en die steeds beter worden in het interpreteren van deze gegevens.
Impact: van sport, tot zwarte gaten, tot hersenscans
Concreet leidde dat tot tal van onderzoeksprojecten met grote maatschappelijke impact. Zo helpen Leidse data science-onderzoekers bij het verbeteren van de prestaties van nationale sportploegen, bij de verwerking van signalen uit de ruimte om zwarte gaten in beeld te krijgen, of om wereldwijd complexe financiële structuren en belastingverplichtingen van bedrijven in kaart te brengen. Ook ontwikkelen ze methodes om op basis van hersenscans dementie te voorspellen.
Onderzoek gekoppeld aan kunstmatige intelligentie
In 2019 startte de Universiteit Leiden met een universiteitsbreed onderzoeksprogramma Kunstmatige Intelligentie (zie hiervoor ook de website Artificial Intelligence). Dit programma bouwt onder meer voort op het eerder gelegde fundament van het data science-onderzoek in Leiden. Kraaij: 'We verwachten in de komende jaren veel synergie tussen deze twee onderzoeksvelden, door de interfacultaire samenwerking met machine learning-onderzoekers verder uit te bouwen. In methodische werkgroepen leert men van elkaars vraagstelling en aanpak.'
Samenwerking met andere faculteiten
De samenwerking met andere Leidse faculteiten is al duidelijk terug te zien in het in 2017 opgestarte is het Data Science Onderzoeksprogramma (DSO). Het DSO combineert Leidse promotieonderzoeken uit allerlei disciplines met data science, en levert verrassende projecten op. Zo speurt een AI-systeem op satellietkaarten naar archeologische vindplaatsen, en worden met behulp van een algoritme patiëntenfora doorzocht om verborgen kennis over kwalen en medicijnen naar boven te halen.
Data Science Research Programme
Leiden Institute of Advanced Computer Science (LIACS)
Mathematisch Instituut (MI)