Verantwoorde en transparante data science
In bijna elk wetenschappelijk vakgebied wordt gebruik gemaakt van data science. Dat biedt vele nieuwe mogelijkheden, maar ook nieuwe dilemma’s. Daarom vindt op 5 maart het symposium ‘Fairness and Transparency, towards responsible data science’ plaats. Hoofdspreker Ricardo Baeza-Yates licht een tipje van de sluier op.
‘Eerlijkheid – of verantwoordelijkheid – en transparantie zijn belangrijke thema’s voor data science, omdat het belangrijke thema’s voor de maatschappij zijn. Het zijn kernprincipes gemotiveerd vanuit de rechten van de mens en ethiek. Transparantie wil zeggen dat duidelijk is waarom een automatisch systeem een beslissing heeft gemaakt, zodat de persoon die geraakt wordt door deze beslissing deze eventueel kan aanvechten. Dit is vastgelegd in artikel 22 van de AVG (privacywetgeving, red.). Voor data science draait het dus om waarom een bepaalde uitkomst uit de analyse is gekomen, of waarom gekozen is voor die analyse.’
‘Wat data science ‘eerlijk’ maakt, is een heel lastige vraag. En een waar nog geen overeenstemming over is. Eigenlijk is het definiëren van wat ‘eerlijk’ is moeilijk, omdat dit kan verschillen per cultuur of samenleving. Anderzijds kunnen we een functionele definitie hanteren, door te zeggen dat als er onbedoelde consequenties uit volgen, die mensen schaden, dat de toegepaste data science dan niet eerlijk of onverantwoordelijk was.’
‘In mijn voordracht ga ik ook in op bias: vooringenomenheid of vooroordelen – en het feit dat elk mens deze heeft. Bewust of onbewust. Dit is om verschillende redenen belangrijk bij data science, of eigenlijk in wetenschap in het algemeen. Allereerst omdat je verkeerde of onbedoelde uitkomsten krijgt, als je je data niet analyseert op bias. Ten tweede omdat je je vaak onbewust bent van bias, en het dus belangrijk is om hier wel bewust van te worden zodat je onderzoek er niet door beïnvloed wordt.’
‘Ik let er altijd op dat ik mijn data analyseer op eventuele bias, en ik verifiëer dat mijn data-analyse systeem geen bias toevoegt. Dit is voor data scientists niet anders dan voor elke andere wetenschapper. Behalve dat bij gecontroleerde experimenten de opzet vaak al zo is, dat bias wordt vermeden, terwijl wij data scientists geen controle hebben over de omgeving waardoor de data wordt gegenereerd.’
‘Niet elke wetenschapper hoeft zich te verdiepen in data science, maar wel iedereen die data gebruikt of experimenten ontwerpt die data opleveren. Een voorbeeld: als je niet de juiste statistische tests uitvoert bij een experiment, zouden je resultaten totaal verkeerd kunnen zijn. Zo gebruiken veel wetenschappers ANOVA (variantieanalyse, red.) voor de analyse van gegevens van proefpersonen, maar dit kan enkel wanneer de data homogeen is, en een normale verdeling heeft. Maar de tests voor homogeniteit en normale verdeling worden vaak vergeten.’
Ricardo Baeza-Yates is een wereldberoemde informatica-onderzoeker, gespecialiseerd in onder andere web search, data mining en data science. Hij is op dit moment werkzaam bij Northeastern University op de Silicon Valley Campus.
Meer weten over data science en hoe dit op een goede en transparante wijze toe te passen in onderzoek? Kom naar het symposium ‘Fairness and Transparency, towards responsible data science’ op 5 maart, van 13.00u tot 17.00u in PLNT, Leiden. Deelname is gratis, graag wel aanmelden vooraf.