Algoritme filtert ‘onleesbare’ teksten

Mischa Brendel

Onderzoekers van de Rijksuniversiteit Groningen (RUG) hebben algoritmes ontwikkeld die snel relevante informatie kunnen filteren uit ‘onleesbare’ teksten. Het gaat hierbij volgens de RUG om teksten die helemaal niet bedoeld zijn om van a tot z gelezen te worden, zoals losse notities, intern bedoelde documenten, of nauwelijks gestructureerde teksten.

Ashwin Ittoo bedacht deze vorm van kunstmatige intelligentie en promoveert op 5 januari op dit onderwerp.

Computers en zoekmachines vinden eenvoudig woorden en woordcombinaties in grote lappen tekst, maar zij zoeken niet contextgevoelig: een computer een tekst laten begrijpen en er een conclusie uit te laten destilleren is nog volop in ontwikkeling. Een bekender voorbeeld hiervan is de Watson-supercomputer van IBM die afgelopen jaar in staat bleek quizvragen zo goed te begrijpen – en daardoor juist te beantwoorden – dat deze zijn menselijke tegenstanders kon verslaan. De techniek Natural Language Processing (NLP), een zijtak van kunstmatige intelligentie, maakt dit mogelijk.

Het was al mogelijk om computers goed leesbare teksten, zoals nieuwsberichten, te laten begrijpen en hier relevante informatie aan te onttrekken, maar de algoritmes van Ittoo maken dit ook mogelijk bij moeilijk leesbare teksten, zelfs als deze vol spelling- en grammaticafouten staan.

Hoewel ontwikkeld bij bedrijven in consumentenelektronica is de techniek volgens Ittoo veel breder toepasbaar. Hij denkt hierbij aan medische dossiers en financiële documenten, maar ook aan zoekmachines. Op die manier zou een gebruiker niet meer overspoeld worden met zoekresultaten waarvan er veel niet relevant blijken.

Lees ook

Nieuws brief
* indicates required