Hoe gekleurde informatie op internet onderzoek beïnvloedt
Internet is een goede plek om snel veel data te vergaren. Maar wie niet oppast, verzamelt sterk gekleurde en eenzijdige data. Daarvoor waarschuwden de sprekers op een symposium op 5 maart over transparante en verantwoorde datawetenschap.
De Chileense computerwetenschapper Ricardo Baeza-Yates wees op de vele soorten bias – vooringenomenheid of vooroordelen - die de uitkomst van onderzoek kan bepalen. Het maakt nogal verschil uit welke cultuur, deel van de wereld, opleidingsniveau en leeftijdscategorie iemand komt, aldus de hoogleraar van de Amerikaanse Northeastern University. Een voorbeeld: meer dan de helft van alle websites zijn Engelstalig. Wie alleen data selecteert op Engelstalige websites sluit een groot deel van de talen en culturen bij voorbaat uit.
Beperkte groep biedt informatie
Wees daar ook van bewust bij het vergaren van data op basis van tweets, zei hij. De meeste twitteraars zijn hoogopgeleide mannen in westerse landen. Bovendien genereert meestal een klein groepje gebruikers meer dan de helft van de content. Voor Twitter is dat zo’n 2% van de gebruikers, voor Facebook 7%. Ook de teksten van online reviews en Wikipedia worden voor een groot deel geschreven door blanke westerse mannen die tijd hebben, aldus de hoogleraar. ‘Vrouwen, ik weet dat jullie het druk hebben, maar schrijf alsjeblief méér op Wikipedia.’
Filterbubbel
Wie internet raadpleegt, of het nu onderzoekers of consumenten zijn, moet dus zeer kritisch naar bronnen kijken. Het wemelt er van het nepnieuws en de neprecensies. En dan is er de filterbubbel: zoekmachines sorteren informatie op basis van eerder klikgedrag van gebruikers, zodat er slechts een selectie te zien is van mogelijke informatie. Ook wees Baeza-Yates op de voorgebakken beperkingen van automatische suggesties als tags. ‘Mensen zijn lui en kiezen voor de gesuggereerde tags die er al staan. Dit werkt als een selffulfilling prophecy en versterkt de filterbubbel.’
Wees bewust van je eigen vooroordelen
Aan het eind drukte hij de studenten en onderzoeker op het hart: zorg voor diversiteit in het onderzoeksmateriaal en volg niet klakkeloos de snelste en gebaande routes op internet, maar boor ook de minder vanzelfsprekende bronnen aan. ‘En wees vooral bewust van je eigen bias. Als onderzoeker begin je per definitie met een vooroordeel omdat je uitgaat van veronderstellingen.’
Machine learning
Mireille Hildebrandt, hoogleraar Interfacing Law and Technology Vrije Universiteit Brussel, waarschuwde voor de juridische haken en ogen van machine learning. Steeds meer wetenschappers maken gebruik van zelflerende modellen die patronen in big data kunnen identificeren. Deze patronen worden gebruikt voor het ontwerpen van een voorspellend algoritme, een wiskundig model, en door nieuwe data kan dit algoritme leren en nieuwe patronen ontdekken. Hierdoor ontstaat een berg onderzoeksdata die voor veel verschillende doeleinden gebruikt kan worden. Maar juridisch mag dat niet zomaar, bijvoorbeeld omdat het niet eerlijk is naar de respondenten die niet voor elk soort onderzoek toestemming hebben gegeven. Hildebrandt waarschuwt voor deze vaak ‘slordige’ toepassingen van onderzoeksdata.
Meld veranderingen
Wettelijk gezien mogen onderzoeksgegevens alleen gebruikt worden voor het primaire onderzoeksdoel. Onderzoekers die deze zelflerende modellen gebruiken, dienen deze onderzoeksmethode te registeren en veranderingen in het onderzoek aan te melden. ‘Houd er telkens rekening mee dat veranderingen in het onderzoek zowel technische als juridsche gevolgen heeft. Meld dus veranderingen, dat zorgt voor meer integriteit in het onderzoek’, aldus Hildebrandt.
Bloeddonoren
In de pauze reflecteerden deelnemers op hun eigen onderzoek. Marieke Vinkenoog is promovendus bij het Data Science Research programma en werkt met data van bloedbank Sanguin. Ze is zich ervan bewust dat haar onderzoekspopulatie niet helemaal representatief is voor de hele onderzoekspopulatie: bloeddonoren zijn meestal blanke, hoogopgeleide vrouwen. Manon Wintgens, promovendus bij Belastingrecht, benadrukt het belang van een degelijke onderzoeksopzet en goede afspraken met respondenten. ‘Anders kom je er te laat achter dat je bepaalde data helemaal niet mag publiceren.’
Foto's Monique Shaw