Data science bij de Belastingdienst
Hoe kan data science de Belastingdienst verbeteren? Mark Pijnenburg, senior data scientist bij de Belastingdienst, besloot om dit in een proefschrift te onderzoeken. Hij vertelt over zijn ervaringen: ‘Soms is een techniek wetenschappelijk gezien interessant, maar niet toepasbaar in de praktijk.’
Verdubbelde werkdruk
In de afgelopen twintig jaar is de hoeveelheid werk voor de Belastingdienst verdubbeld, terwijl het aantal werknemers – zo’n 30.000 – grofweg gelijk is gebleven. ‘We moeten dus steeds efficiënter werken,’ vertelt Mark Pijnenburg, die onlangs promoveerde bij het Leiden Institute of Advanced Computer Science (LIACS). ‘Data science kan ons daarbij helpen.’
Belangenverstrengeling
Onderzoek doen op de plek waar je werkt heeft zo z’n voor- en nadelen, vertelt Pijnenburg. Zo is een nadeel dat je gezien kunt worden als een slager die zijn eigen vlees keurt. ‘Ik denk dat het als interne onderzoeker lastiger is om beladen onderwerpen als discriminatie te onderzoeken. Dat brengt intern en extern veel emoties met zich mee en van buitenaf zou men kunnen denken dat er belangenverstrengeling in het spel is. Ik heb dus ook geen onderzoek naar discriminatie gedaan, maar naar de technische kant van de data-analyse gekeken.’
Aan de andere kant zorgt het voor nieuwe kansen, zegt de data scientist. ‘Door dit promotieonderzoek kreeg ik de gelegenheid om nieuwe methodes bij de Belastingdienst te onderzoeken, iets waar ik normaal nooit tijd voor had. Daarnaast kreeg ik van mijn copromotor Wojtek Kowalczyk handige tips, bijvoorbeeld over het vinden van vakliteratuur. Beide aspecten hebben mijn werk bij de Belastingdienst verbeterd.’
Wetenschap in de praktijk
Daarnaast kon Pijnenburg zijn praktische ervaringen meenemen naar de wetenschap, met kruisbestuiving als gevolg. ‘Op congressen vonden veel mensen mijn praktijkervaringen bij de Belastingdienst interessant. Dat leverde leuke gesprekken op waar ik waardevolle input uit heb gekregen.’
Ook binnen zijn eigen organisatie maakte Pijnenburg de nodige impact. ‘Het management-team van het onderdeel MKB heeft een van mijn artikelen gelezen, daar werken ruim 8000 mensen. Ik vond het mooi dat ze ook in die laag van de organisatie mijn werk konden waarderen.’
Een grijs gebied
Toch werden niet alle inzichten van Pijnenburg overgenomen bij de Belastingdienst. ‘Zo deed ik onderzoek naar zogeheten factorization machines, die kunnen een goede bijdrage leveren aan onze risicomodellen. We maken hierbij gebruik van specifieke informatie, zoals postcodes en sector. De combinatie restaurant en industrieterrein zou dan bijvoorbeeld verdacht zijn. Uit mijn onderzoek bleek dat die methode vrij aardig werkte, alleen het management-team besloot dit niet in de praktijk toe te passen. Postcodes kunnen namelijk ook samenhangen met sociaal-economische achtergrond en dan wordt het al snel een grijs gebied.’