Digitale mijnwerker graaft dieper

Leestijd: 3 minuten

Patrick Marx

Op 2 december opende de TU Eindhoven het Data Science Centre Eindhoven (DSC/e).

De wetenschappers van het centrum, uit twintig verschillende disciplines, onderzoeken hoe ze grote datastromen in zinvolle informatie kunnen omzetten.

‘Onderzoek in de informatica bestond tot voor kort uit het ontwikkelen van modellen die de werkelijkheid simuleren. Uit zo’n model volgt bijvoorbeeld de levensduur van een medisch apparaat waarna critici zich steeds weer afvragen of het model de werkelijkheid wel goed benadert. Inmiddels zijn zoveel data van allerlei systemen en processen beschikbaar dat modellen niet meer nodig zijn.

Analyse van deze data geeft immers de werkelijkheid weer’, zegt de wetenschappelijk directeur van het DSC/e, hoog­leraar Wil van der Aalst. Hij vergelijkt de opkomst van de datawetenschappen met de opkomst van de informatica: ‘Sinds de jaren tachtig van de vorige eeuw zijn er voldoende computers beschikbaar om zelfstandige informatica-opleidingen te rechtvaardigen. Tot dan was het vak het domein van wis- en natuurkundigen. Nu maakt de overvloed aan beschikbare data de opleiding tot datawetenschapper urgent.’

Op termijn start het DSC/e met een bachelor- en masterstudie data science. Is er wel genoeg werk voor de toekomstige datawetenschapper? Het antwoord blijkt uit de ongekende verzamelwoede van de mens. In de ongeveer tien minuten die nodig zijn om dit artikel te lezen, produceert de mensheid meer data dan in de periode van de prehistorie tot 2003. Van der Aalst: ‘Die toename volgt nog steeds de wet van Moore met minstens een verdubbeling per twee jaar.’

Het onderzoek van het DSC/e gaat een stap verder dan het bekende data mining, het zoeken naar enkele relaties tussen de data. Met process mining analyseren de wetenschappers complete processen.

Visualisatie van data speelt een grote rol in deze techniek. Van der Aalst laat een onderzoek voor het Academisch Medisch Centrum in Amsterdam zien. ‘Op basis van de gegevens die het ziekenhuis aan de verzekeraars levert, kunnen we het zorgproces analyseren. De database bevat gegevens over het bezoek van patiënten aan artsen, laboratoria of de röntgenafdeling inclusief datum en tijd.’ Op zijn beeldscherm verschijnt een automatisch gegenereerd processchema dat bestaat uit met lijnen verbonden vakjes met namen van afdelingen. Over die lijnen lopen rode bolletjes die elk de route van één patiënt weergeven. Files van rode bolletjes maken in één oogopslag de bottlenecks in het proces zichtbaar. Van der Aalst benadrukt: ‘Het schema toont geen simulatie maar het echte zorgproces.’

De analyses voert het DSC/e met standaard computers uit. ‘We ontwikkelen analysemethoden die algemeen bruikbaar zijn zonder de noodzaak van speciale computers’, zegt van der Aalst. Toch is er werk voor technici in het DSC/e. De faculteiten elektrotechniek en industrieel ontwerp maken deel uit van het centrum. ‘Technici zullen zich vooral bezig houden met het ontwikkelen van nieuwe en slimme manieren van data verzamelen’, zegt van der Aalst.

Juist dit onderwerp, het verzamelen van data, is een actueel en omstreden onderwerp. Denk maar aan de discussie rond de Amerikaanse inlichtingendienst NSA. Gebruikt de NSA de technieken die van der Aalst ontwikkelt? Zijn onderzoek hoort immers tot de wereldtop. ‘Het zou me niets verbazen’, zegt hij. ‘Maar de NSA gebruikt vooral brute rekenkracht om relaties tussen mensen te vinden en doet, denk ik, nog niet veel aan process mining.’

Op 10 december start in Eindhoven een internationaal congres met de titel Big Data: Big Business of Big Brother? Voor het antwoord op deze vraag betrekt het DSC/e bewust de afdeling ethiek van de TU/e bij haar onderzoek. ‘We richten ons op positieve ontwikkelingen voor de maatschappij’, zegt van der Aalst. ‘Iedereen begrijpt dat je in je onderzoek geen relatie mag leggen tussen bijvoorbeeld iemands huidskleur en andere gegevens. Toch is het soms mogelijk om, zonder het direct te vragen, iemands huidskleur uit gedragsdata af te leiden. Ook dat mag niet. Ethici en datawetenschappers zullen elkaar nodig hebben om de grens tussen wat wel en niet mag scherp in de gaten te houden’, besluit van der Aalst.

Lees ook

Nieuwsbrief