Interactieve modellen: NWO TOP-subsidie voor Matthijs van Leeuwen
Matthijs van Leeuwen van het Leiden Institute of Advanced Computer Science ontwikkelt methodes om interactief naar de juiste computermodellen te zoeken. Hierbij kunnen experts informatie uit ruwe data combineren met hun eigen kennis om zo voorspellingen accurater te maken. ‘Op deze manier hopen we modellen te bouwen die direct toepasbaar zijn in bijvoorbeeld de gezondheidszorg en luchtvaart.’ Voor het project kreeg hij een NWO TOP-subsidie toegekend van €249.000
Zelflerende modellen
‘Wetenschappers maken van oudsher gebruik van modellen om complexe fenomenen te beschrijven’, vertelt Van Leeuwen. ‘Een model is niet anders dan een vereenvoudigde, maar exact geformuleerde weergave van de werkelijkheid.’ Naast simpele modellen voor bijvoorbeeld de valbeweging van een voorwerp, bestaan er ook veel complexere modellen, zoals voor het opstellen van weersverwachtingen – die nog lang niet altijd accuraat zijn. Tegenwoordig kunnen computerwetenschappers met machine learning ingewikkelde modellen ontwikkelen die zelflerend zijn. Het doel van deze modellen is dat ze door herhaling steeds accurater worden. Bekende succesverhalen zijn bijvoorbeeld de zelfrijdende auto van Tesla en de computer die uiteindelijk het complexe spel Go won van ’s werelds beste spelers.
Geen griep?
Er kleven echter ook nadelen aan data-gedreven modelleren, vertelt Van Leeuwen: ‘Data is vaak geen volwaardige vervanging voor expertkennis. Zo gaan zelfrijdende auto's niet altijd goed om met onbekende situaties, wat kan leiden tot ongelukken.’ Een ander voorbeeld is Google Flu (`Google Griep'), een voormalige webservice waarmee Google griepepidemieën probeerde te voorspellen op basis van zoektermen in Google Search. Google Flu bleek incorrecte associaties tussen zoektermen en griep te hebben geleerd, wat na verloop van tijd leidde tot inaccurate voorspellingen. Om dit te voorkomen, moet er wat veranderen.
Data en experts
Op dit moment maken veel modellen alleen gebruik van data, maar lang niet alle bestaande (en benodigde) kennis is in deze data aanwezig. Daarom wil Van Leeuwen methodes ontwikkelen waarmee gebruikers de informatie uit de data kunnen combineren met hun eigen kennis. ‘Hiervoor gaan we theorie en algoritmen ontwikkelen die het mogelijk maken om automatisch te zoeken naar patronen in grote hoeveelheden data, maar die ook kennis van mensen meenemen’, legt hij uit. ‘Dit doen we door interactieve methoden te ontwikkelen waarmee de gebruiker de data-analyse kan sturen.’ Door data en kennis te combineren hopen we modellen te kunnen construeren die accurater zijn en meer inzicht geven in de onderliggende processen die de data genereren. In het voorbeeld van Google Flu zou de data-analist kunnen aangeven dat bepaalde zoektermen, zoals ‘Elfstedentocht’, niet direct met griep te maken hebben, ondanks het feit dat we hier –net als naar ‘griep’– in de winter vaker naar zoeken dan in de zomer.’
Uitkomsten ingrepen voorspellen
Accuratere modellen zijn belangrijk, omdat data en kunstmatige intelligentie overal om ons heen worden toegepast. Van Leeuwen: ‘Helaas zijn de verwachtingen hierbij vaak nog hoger dan wat we met de bestaande methodes kunnen waarmaken.’ Van Leeuwen en zijn collega’s gaan zich vooral richten op toepassingen in de gezondheidszorg en luchtvaart. Zo hopen ze bijvoorbeeld betere modellen te vinden voor het voorspellen van de uitkomst van ingrepen bij een beroerte. ‘Het zou mooi zijn om met behulp van data nieuwe inzichten op te doen over deze ernstige aandoening.’