Het patiëntenforum als kennisgoudmijn
Op gespecialiseerde internetfora delen patiënten van bepaalde ziektes ervaringen en steunbetuigingen met elkaar. Met de juiste data science-technieken kan zo’n forum belangrijke informatie voor onderzoekers naar boven halen. PhD-kandidaat Anne Dirkson verricht onderzoek naar die technieken.
Het Data Science Onderzoeksprogramma (DSO) combineert Leidse promotieonderzoeken uit allerlei disciplines met data science. Het programma loopt nu ruim twee jaar, en levert verrassende eerste resultaten op. In deze artikelenreeks bespreken we er een aantal.
Patiënten met een bepaalde aandoening bezitten samen veel kennis over de kwaal. Bijvoorbeeld welke onbekende bijwerkingen bepaalde medicijnen hebben, of welke voeding kan helpen. Die kennis kan in de eerste plaats goede aanknopingspunten bieden voor nieuw onderzoek naar (behandeling van) de ziekte, ten tweede kunnen patiënten elkaar met deze kennis ondersteunen.
Neurowetenschapper Anne Dirkson werkt binnen het DSO als PhD-kandidaat aan software die dit soort kennis kan verzamelen. Een data mining-systeem doorzoekt hiervoor gesprekken die op specialistische patiëntenfora plaatsvinden. De software wordt ontwikkeld op basis van meerdere patiëntenfora; in het bijzonder richt het onderzoek zich op een forum voor patiënten met een zeldzame tumor, Gastro Intestinale Stroma Tumor (GIST). Uiteindelijk is de hoop om een tool te maken die alle soorten fora op dit soort informatie kan doorzoeken.
Je bent nu een jaar bezig, wat zijn de eerste resultaten?
‘Ik ben nu bijna klaar met het opschonen van de gegevens uit de fora. Dat houdt in: het wegwerken van afkortingen, spelfouten en spreektaal. Dit soort afwijkingen maakt het namelijk moeilijk voor software om tekst te doorzoeken. Verder heb ik uit alle berichten de ervaringen van patiënten gefilterd, en andersoortige berichten - zoals bijvoorbeeld steunbetuigingen – weggelaten. Het komende jaar gaan we een systeem bouwen om de tekst te doorzoeken en de kennisbank op te bouwen. Om een beeld te geven van de omvang van het werk: een van de onderzochte fora bestaat uit 36277 berichten, 1.255.741 woorden.’
‘Een uitdaging daarbij zal zijn om het systeem concepten, zoals een bijwerking, te laten herkennen. Er zijn bijvoorbeeld veel manieren om hoofdpijn te beschrijven, terwijl het voor onze kennisbank van groot belang is dat al die beschrijvingen onder het kopje ‘hoofdpijn’ worden gecategoriseerd. En uiteindelijk willen we, als de kennisbank is gebouwd, alle verzamelde kennis ook vergelijken met bestaande data: wat weten we al, wat is er nieuw? De kennisbank zou ook een richting moeten aangeven voor nieuw onderzoek door experts. We willen ook nog kijken in hoeverre de richting die de kennisbank aangeeft, plausibel is. Er is nog veel te doen, maar de verwachting is dat het moet lukken.’
Wist je al veel van data science toen je onderdeel werd van het DSO?
‘Ik heb een achtergrond in neurowetenschappen, en in die hoedanigheid kom je al wel met big data in aanraking. Bijvoorbeeld bij het in kaart brengen van hersenen. Maar van data mining-methodes wist ik nog weinig. Het mooie aan het DSO is juist dat je in contact wordt gebracht met promovendi die heel goed zijn in de theorie van data science, en met promovendi die veel kennis hebben in een bepaald domein. Ik heb dus veel kunnen bijschaven aan mijn kennis van data science en de toepassingsgebieden.’
Wat is de meerwaarde van een programma als het DSO?
‘Binnen de academische wereld is het altijd een uitdaging om andere wetenschappers te vinden met onderzoeksmethoden die ook voor jou interessant kunnen zijn. Het DSO zet alle promovendi met samenwerkingsmogelijkheden in één kamer, waardoor je sneller een goed overzicht krijgt van mogelijke data science-technieken. Je leert ook op praktisch vlak veel van elkaar, bijvoorbeeld bij het oplossen van problemen bij programmeren.’
Het Data Science Onderzoeksprogramma (DSO) is een universiteitsbreed programma, dat erop gericht is de kwaliteit van het bestaande data science-onderzoek te verhogen, en het gebruik van data science-methoden te bevorderen bij alle faculteiten van de Universiteit Leiden.