Computer struikelt over woordgrap

Het woord ‘noodweer’ kan ‘verdediging’ betekenen, maar ook ‘een vreselijke storm’. Een mens kan het onderscheid prima maken, maar hoe leg je dat uit aan een computer?
Door Lucia Grijpink

Het gebeurt nog altijd. Je gooit een tekstje in Google Translate en het eindresultaat is… bijzonder. Zou het niet superhandig zijn als computers wél perfecte resultaten uitspuwen?

Het kán beter, zegt Dieke Oele. Na een master computationele taalkunde in Antwerpen – je zou het ook ‘computertaalkunde’ kunnen noemen – begon ze aan een onderzoek dat deel uitmaakte van het QTLeap project (Quality Translation by Deep Language Engineering Approaches). Daarin werken acht Europese universiteiten samen om met betere automatische vertaalsystemen te ontwikkelen. Het project leverde al een chatsysteem op van een IT helpdesk dat in meerdere talen kan antwoorden.

Oele hield zich de afgelopen jaren vooral bezig met woorden die meerdere betekenissen hebben. Een voorbeeldje: Het woord ‘vorst’ in de zin ‘Het land wordt geregeerd door een strenge vorst’, vertaal je naar het Engels met monarch. Maar in de zin ‘Landbouw wordt benadeeld door een strenge vorst’, moet het frost zijn. Context is dus essentieel.

Rekensommetje

Maar vertel dat maar eens aan een computer. ‘Ik heb daarvoor zogenaamde word embeddings gebruikt. Dit zijn lange reeksen van getallen die het concept van een bepaald woord kunnen weergeven. Door elk woord in de zin weer te geven als zo’n embedding kun je ‘rekenen’ met woorden.’

Oele berekende zo wat de overeenkomst is van een woord met de andere woorden in een zin. Vervolgens liet ze de computer kiezen voor de betekenis met de hoogste score. Zo kon ze de context bepalen met een rekensommetje.

Foutmarge

De uitkomst van het onderzoek was helaas niet helemaal wat ze gehoopt had. ‘De foutmarge bij het bepalen van de juiste betekenis was nog altijd te groot.’ Hierdoor werd vaak niet de juiste vertaling aan het woord gekoppeld en ging het vertaalsysteem dus niet beter werken.

Tussendoor deed Oele ook nog mee aan een woordgrapjeswedstrijd voor computationeel taalkundigen waarbij hun systemen automatisch woordgrapjes moesten herkennen en begrijpen. Denk bijvoorbeeld aan de zin ‘I used to be a banker but I lost interest’. De kunst was om zowel de betekenis ‘interesse’ als ‘aandeel’ uit hun systemen te toveren.

‘Hoewel we best goed scoorden in verhouding tot de anderen, waren de scores erg laag. Het bleek nog een moeilijkere taak te zijn dan het vinden van slechts één betekenis.’ Oele en haar team waren goed op dreef en behaalden de tweede (bijna eerste) plek. ‘Maar we hadden ook niet zoveel competitie.’

Samsung

Oele werkt inmiddels in Duitsland, waar ze haar kennis over het automatisch herkennen van woordbetekenissen gebruikt bij het ontwikkelen van een automatische personal assistant, vergelijkbaar met Siri en Alexa, voor Samsung.

Als jij bijvoorbeeld een nieuwe spaarrekening wilt openen en vraagt waar je een bank kunt vinden, wil je niet naar de IKEA gestuurd worden. ‘Uiteindelijk willen ze dit soort systemen uitrollen naar allerlei apparaten, zoals koelkasten en wasmachines. Zo kan je over een aantal jaar misschien wel aan je koelkast vragen of je nog melk hebt.’

Engels

De spelregels voor reageren: blijf on topic, geen herhalingen, geen URLs, geen haatspraak en beledigingen. / The rules for commenting: stay on topic, don't repeat yourself, no URLs, no hate speech or insults.

guest

0 Reacties
Meest gestemd
Nieuwste Oudste
Inline feedbacks
Bekijk alle reacties