Carole Tiberius benoemd tot hoogleraar Computerlinguïstiek: ‘Als je weet hoe systemen werken, kun je de beperkingen ervan beter inschatten’

26 april 2023 tekst: Myrthe Timmers beeld: Anna Loh

ChatGPT, vertaalmachines en bots: voor Carole Tiberius zijn ze gesneden koek. 1 januari is ze benoemd tot hoogleraar Computerlinguïstiek. ‘Het vakgebied bestaat uit twee componenten: informatica en taalkunde.’

De liefde voor computers en taal zat er al vroeg in bij Tiberius. Na een studie Frans-Russisch aan het Hoger Instituut voor Vertalers en Tolken in Antwerpen vertrok ze naar Nijmegen om zich verder te verdiepen in de computerlinguïstiek. ‘Niet zelf vertalen, maar de computer het werk laten doen. Dat vond ik heel interessant’, zegt ze daarover.

De machine en de mens

Hoe interessant het onderwerp ook was, Tiberius’ timing was niet optimaal. ‘Eind jaren negentig was de limiet voor automatisch vertalen even bereikt’, vertelt ze. Ze promoveerde op een verwant onderwerp (‘multilingual lexical knowledge representation’) en werkte een paar jaar als taalkundige aan de Universiteit van Surrey, totdat ze in 2006 bij het Instituut voor Nederlandse Lexicologie (nu Instituut voor de Nederlandse Taal) kwam. Langzaamaan sloop de computer haar werk weer steeds meer binnen. Het resulteerde afgelopen januari in een benoeming tot hoogleraar voor één dag per week. ‘De werkzaamheden binnen het INT zijn vooral toegepast wetenschappelijk’, zegt ze. ‘Ik kijk er naar uit om ook weer meer fundamenteel onderzoek te kunnen doen, in het bijzonder naar meerwoordsuitdrukkingen. Dat zijn combinaties van woorden die zich in hun betekenis of gedrag niet helemaal aan de regels van de taal houden. Een uitdrukking als ‘geen kaas gegeten hebben van iets’ moet bijvoorbeeld niet letterlijk geïnterpreteerd worden, maar figuurlijk en wordt altijd gebruikt in de voltooide tijd. Door dit afwijkende karakter vormen meerwoordsuitdrukkingen nog vaak een struikelblok voor taaltechnologische toepassingen.’

De teksten die uit online vertaalmachines rollen lijken namelijk vaak wel goed, maar zijn dat vaak niet helemaal, betoogt Tiberius. ‘De output oogt foutloos, totdat je het resultaat met de input vergelijkt. Dan zie je dat er toch foutjes in zijn geslopen. Ongeveer hetzelfde geldt voor ChatGPT. Daar heb je geen origineel om de output naast te leggen, maar juist daarom moet je zelf steeds kritischer worden. Wat staat er nou eigenlijk?’

Nodig blijven

Die kritische blik wil ze ook haar toekomstige studenten graag bijbrengen. ‘Het Leiden University Centre for Linguistics wil graag meer inzetten op computerlinguïstiek in het onderwijs’, legt ze uit. ‘Op masterniveau is de track Computational Linguistics al gestart en als het goed is komt er binnenkort ook meer aandacht voor computerlinguïstiek in de bachelor.’ Aan beide wil Tiberius haar steentje bijdragen. ‘Ik wil studenten leren hoe ze een corpus kunnen bouwen om taalkundige analyses op uit te voeren.’

De keuzes die de studenten maken bij het prepareren van hun corpus, zijn namelijk cruciaal voor het verdere verloop van het onderzoek. Tiberius: ‘We zitten nu misschien in een fase met veel aandacht voor wat computers kunnen, maar ik ben van mening dat de mens en de taalkundige ook nodig zal zijn en blijven. Ik ben dan ook erg blij met mijn aanstelling bij LUCL.’