Robots leren serie handelingen uit te voeren

21 november 2017

Robots hanteren soms vanzelf dezelfde strategie als mensen wanneer zij handelingen in een bepaalde volgorde moeten uitvoeren. Dat laat Roy de Kleijn zien in zijn dissertatie. Promotie op 23 november.

Wetenschappelijk onderzoek naar het maken van autonome robots neemt al jaren een enorme vlucht. Dergelijke robots zouden bijvoorbeeld ouderen kunnen helpen in huis. Het begrijpen van het leerproces van robots betekent bovendien meer inzicht in het menselijk leerproces. Met die kennis zouden onder meer individuen met leerproblemen geholpen kunnen worden.

Een glas water halen is erg moeilijk voor een robot

Cognitief psycholoog Roy de Kleijn deed onderzoek naar een van de vele radertjes in het proces om robots mondelinge instructies te laten uitvoeren. De Kleijn: 'Robots zijn slecht in het omzetten van taal in motorhandelingen. Een instructie, zoals "Haal een glas water", is voor een mens simpel, maar voor robots enorm complex. Onder meer omdat het om een sequentiële handeling gaat, die om een bepaalde volgorde vraagt: eerst het glas pakken, dan de kraan open, dan vullen, enzovoort.'

Klikken op blokjes

In het kader van het EU-project RoboHow, onderzocht De Kleijn hoe robots een bepaalde volgorde van handelen is aan te leren. Dat begon met bekijken hoe dat proces zich bij mensen voltrekt. Proefpersonen kregen op een zwart scherm een serie van vier blokjes te zien, die in dezelfde volgorde achter elkaar verschenen. Tussen het verschijnen van elk vierkantje zat een paar seconden tussentijd. De proefpersonen moesten herhaaldelijk, in deze serie van vier blokjes, met een muis zo snel mogelijk elk blokje aanklikken.

'Hierbij openbaarden zich twee verschillende tactieken. De ene groep mensen begon de volgorde, waarin de blokjes verschenen, te onthouden. Zodra een blokje was verschenen en aangeklikt, schoven zij de muis zo snel mogelijk naar de plek waarop het volgende blokje verscheen. Andere mensen konden de volgorde niet onthouden. Zij schoven de cursor na het aanklikken van een blokje zo snel mogelijk naar het midden, zodat ze vanuit daar een zo kort mogelijke afstand hoefden af te leggen om het volgende blokje aan te klikken.'

Een robot hanteert dezelfde strategie als de mens

Dit inzicht gaf de basis voor een experiment met een door een computerprogramma gesimuleerde robotarm, die ook de vier blokjes zo snel mogelijk moest aanklikken. Deze arm was gekoppeld aan een neuraal netwerk, dat de blokjes op het scherm waarnam. Het experiment testte drie condities waaronder het netwerk moest opereren. Conditie 1: het netwerk ontving een juiste voorspelling waar het volgende blokje zou verschijnen. Conditie 2: het neurale netwerk ontving soms een juiste voorspelling waar het blokje zou verschijnen, soms niet. Conditie 3: het netwerk ontving geen voorspelling. Het resultaat was dat de robot onder condities 2 en 3 precies dezelfde strategie ging ontwikkelen als de menselijke tegenhanger: met de cursor in het midden van het scherm gaan staan om zo snel mogelijk op het volgende blokje te kunnen klikken.

Deze resultaten waren een belangrijke bouwsteen voor het EU-project RobotHow, dat onderzocht tegen welke problemen je allemaal aanloopt als je een robot een serie handelingen wilt laten uitvoeren. Maar zijn onderzoek levert volgens de Kleijn nog meer op. 'Het lijkt erop dat mensen hun gedrag onder beperkende omstandigheden proberen te optimaliseren. De proefpersonen die de volgorde van de blokjes niet uit het hoofd kon leren, ontwikkelden immers een strategie om toch zo snel mogelijk te zijn. Verder lijkt het robotmodel een goede weerspiegeling te zijn voor het leerproces van mensen. Dat geeft allemaal aanknopingspunten voor vervolgonderzoek.'