Wetenschap
Phat Do op Campus Fryslân. Foto Christien Boomsma

Phat Do onderzoekt kunstmatige spraak

Een Friese stem uit Vietnam

Phat Do op Campus Fryslân. Foto Christien Boomsma
De Vietnamese promovendus Phat Do spreekt geen woord Fries, maar dat weerhield hem er niet van om een computerstem te creëren die de taal vloeiend spreekt.
17 mei om 13:40 uur.
Laatst gewijzigd op 17 mei 2022
om 13:40 uur.
mei 17 at 13:40 PM.
Last modified on mei 17, 2022
at 13:40 PM.

Door Christien Boomsma

17 mei om 13:40 uur.
Laatst gewijzigd op 17 mei 2022
om 13:40 uur.

By Christien Boomsma

mei 17 at 13:40 PM.
Last modified on mei 17, 2022
at 13:40 PM.

Christien Boomsma

Achtergrondcoördinator en wetenschapsredacteur
Volledig bio »

Background coordinator and science editor
Full bio »

Phat Do houdt van taal. Hij spreekt Vietnamees – zijn moedertaal – en ook Engels, een beetje Chinees en Japans. Hij probeert Nederlands te leren – DuoLingo is daarbij erg handig – en verdiept zich ondertussen ook een beetje in Spaans en Frans. Maar Fries spreekt hij niet. 

En toch staat er op het scherm in een kleine vergaderruimte op Campus Fryslân een Fries gezegde: ‘Bûter, brea en griene tsiis, wa’t dat net sizze kin is gjin oprjochte Fries.’ Oftewel: ‘Boter, brood en groene kaas, wie dat niet kan zeggen is geen echte Fries.’   

Hij klikt op een knop rechts in beeld en een vrouwenstem spreekt de zin uit die – zo wil de legende – de middeleeuwse vrijheidsstrijder Grutte Pier gebruikte om de echte Friezen van de gehate Hollanders te onderscheiden.

Klik op de vlaggetjes om de Friese uitspraak te horen van computerstemmen die zijn ‘opgeleid’ in Nederlands, Fins, Spaans, Japans en Frans.

Bûter, brea en griene tsiis, wa’t dat net sizze kin is gjin oprjochte Fries

De computerstem die Nederlands als brontaal gebruikt klinkt prima, maar het ‘íi’-geluid in ’tsiis’ is niet langgerekt genoeg. De intonatie klopt ook niet helemaal. Bij ‘oprjochte’ gaat de toon omhoog, terwijl die gelijk moet blijven.
Met Fins als brontaal is wordt ‘griene’ ingekort. De ‘e’ aan het eind is niet te horen. En ook hier gaat de toon omhoog in ‘oprjochte’.
Met Spaans als brontaal klinkt de ‘ii’ in ’tsiis’ een beetje als de ‘ee’ in het Nederlandse ‘eerder’. Maar de toonhoogte van de zin klopt wel.
Bij Japans als brontaal is de ’t’ in ‘bûter’ te langgerekt. De ‘ii’ in ‘tsiis’ klinkt ook weer als de ‘ee’ in ‘eerder’, net als de ‘i’ in ‘sizze’, die kort moet zijn.
Frans als brontaal levert een te korte ‘i’ op in ’tsiis’. De korte ‘i’ in ‘sizze’ klinkt als de ‘ee’ in het Nederlandse ‘leek’.

Het is verstaanbaar. Prima zelfs, voor wie Fries spreekt. Ja, er zijn een paar haperingen. Het ‘ii’-geluid van tsiis is te kort. De ‘o’ in oprjochte klopt niet helemaal. Maar toch, het is behoorlijk goed.

Geartsje de Vries

‘Kijk’, zegt Do. ‘Je kunt haar alles laten zeggen.’

Hij gaat snel naar de website van Omrop Fryslân en kopieert een willekeurig stukje tekst over de problemen bij lokale bedrijven. De omroep is handig voor zo’n testje, omdat Do zeker weet dat het geschreven Fries correct is. Zelf heeft hij er weinig benul van waar de tekst eigenlijk over gaat. 

In plaats van te typen, gebruiken we onze stem om met apparaten te communiceren

Hij plakt het fragment in het tekstvak van zijn programma en klikt weer. En ja, de vrouwenstem – gebaseerd op de Friese stemacteur Geartsje de Vries – leest de woorden voor. Het is ook deze keer niet moeilijk te verstaan, hoewel de vreemde cadans ervoor zorgt dat de tekst lastiger te volgen is dan het korte zinnetje eerder. 

Het lijkt misschien niet veel voor te stellen, maar Do, die promotieonderzoek doet naar spraaktechnologie op Campus Fryslân in Leeuwarden, heeft iets opmerkelijks gedaan: hij heeft een computerstem gecreëerd voor het Fries. Google Translate kan misschien wat woorden en zinnen voor je vertalen, maar kan je niet laten horen hoe ze moeten klinken. Maar Do’s zelfgebouwde stem kan dat wel, en dat is nieuw.

Wat meer is: hij heeft de stem gemaakt met behulp van slechts dertig minuten aan opnames: audioboeken ingesproken door De Vries. 

Kleine talen

‘Spraaktechnologie wordt steeds vaker toegepast’, legt hij uit. ‘In plaats van te typen en te klikken, gebruiken we onze stem om met onze apparaten te communiceren.’ Denk aan Alexa, Siri of Google Home. Denk aan Google Translate. Maar er zijn ook websites die voorgelezen kunnen worden: handig voor wie blind is of niet kan lezen. 

Hoewel die technologie alom beschikbaar is voor talen als Engels, Mandarijn, Spaans en zelfs Nederlands, ligt dat anders voor wat Do low-resource languages noemt; talen met weinig sprekers, zoals het Fries.

Normaal gesproken zou je honderden uren aan duidelijk uitgesproken taal met de bijbehorende tekst nodig hebben om een computerstem te creëren. Al die tekst moet opgedeeld worden in zinnen of frases en die moeten weer getranscribeerd worden naar fonemen, de kleinste eenheden van klank die je kunt onderscheiden.  

De fonemen moeten vervolgens gelinkt worden aan de bijbehorende audio en ingevoerd worden in de computer. Nadat de machine heeft ‘geleerd’ hoe de woorden uitgesproken moeten worden, begint hij te voorspellen hoe onbekende stukjes tekst horen te klinken.

Efficiënt

Dat kost bergen tijd, middelen en dus ook geld, wat betekent dat kleine talen – termen als etnisch of minderheidstaal kunnen een politiek statement zijn en dienen daarom vermeden te worden – misschien niet hun eigen computerstem kunnen krijgen. 

Maar dat is wel belangrijk, zegt Do. ‘Lokale overheden die willen dat een taal leeft in hun gemeenschap hebben zo’n stem nodig op hun websites voor visueel gehandicapten’, zegt hij. Maar het is ook relevant voor het leren van een taal of voor vertaaldoeleinden.’ 

Als je wilt dat een taal levend blijft heb je een computerstem nodig 

Dus probeert Do een manier te vinden om zo efficiënt mogelijk computerstemmen te creëren voor alle kleine talen. In zijn onderzoek is Fries slechts een voorbeeld. De ideale taal voor een casusonderzoek, aangezien hij op Campus Fryslân werkt en de native speakers overal om hem heen te vinden zijn.

‘Ik gebruik een techniek die transfer learning heet, legt hij uit. ‘Daarbij train je een model eerst met heel veel data van de ene taal, en laat je hem zichzelf daarna aanpassen met een beetje data van de doeltaal.’ 

Taalfamilie

Die techniek is niet nieuw. Maar Do gelooft dat hij sterk verbeterd kan worden, want tot nu toe gebruikten onderzoekers vaak hun onderbuikgevoel om de ideale ‘donortaal’ te kiezen om te compenseren voor een gebrek aan data. Doorgaans gaan ze voor een taal uit dezelfde familie – voor Fries zou dat Nederlands of Engels kunnen zijn, want het zijn alledrie West-Germaanse talen. 

Maar na een meta-analyse van onderzoeken naar dit onderwerp denkt Do nu dat andere factoren dan taalverwantschap mogelijk een belangrijke rol spelen. En dus ontwierp hij een experiment waarbij hij een Friese stem trainde met behulp van donordata uit vijf verschillende talen: Nederlands, Frans, Spaans, Fins en Japans. Daarna vroeg hij sprekers van het Fries om de audio van zijn kunstmatige stemmen te beoordelen op hun natuurgetrouwheid.  

Het resultaat? ‘Nederlands als donortaal leverde de beste kwaliteit op’, zegt Do. Dat had hij wel verwacht. Maar interessanter was welke taal als tweede eindigde. Van de overige talen zou je denken dat Spaans of Frans nog het dichtste bij het Fries liggen. Maar nee: ‘Het bleek Fins te zijn, dat tot de Oeraalse talen behoort.’

Sa gau as it út it sicht rekket, twifel ik

De in het Nederlands opgeleide computerstem spreekt ‘Sa gau as it út it sicht rekket, twifel ik’ (Zodra het uit zicht raakt, begin ik te twijfelen) bijna perfect uit, maar de intonatie aan het eind klopt niet helemaal.
Met Fins als brontaal klinkt het woord ‘gau’ een beetje als het Engelse ‘go’, terwijl de klinker op het Nederlandse ‘auw’ moet lijken. De ‘w’ in ’twifel’ klinkt als die in het Engelse ‘war’ en niet als een Nederlandse ‘w’.
Spaans levert ook een ‘go’ op en de ‘w’ in ’twifel’ is bijna niet te horen.
De Japanese stem kan de ‘au’ ook niet goed uitspreken. Het lijkt meer op een ‘oh’. De ‘uu’ van ‘út’ is veranderd in een ‘ah’ en de ‘w’ in ’twifel’ klinkt hier ook net als die in het Engelse ‘war’.
Frans produceert een ‘l’ in plaats van een ‘r’ in ‘rekket’ en de ‘w’ in ’twifel’ is weer op z’n Engels.

Klanken

Belangrijker dan de taalfamilie, concludeerde Do, is een overeenkomst in de klanksystemen. Als je talen aan de hand van hun fonemen vergelijkt, zie je dat bepaalde klanken wel in de ene taal gebruikt worden, maar niet in de andere. 

Neem bijvoorbeeld de Afrikaanse !Xu-talen. Die hebben 141 fonemen – inclusief veel klikgeluiden – terwijl op het eiland Bougainville, dat tot Papoea Nieuw-Guinea behoort, een taal gesproken wordt die er maar elf heeft. ‘Het gaat er ook om hoe vaak die fonemen worden gebruikt, en hoe ze samen worden gebruikt’, zegt Do. ‘In bepaalde talen komt de ‘m’ vaak na de ‘a’-klank, maar in andere talen nooit.’ 

Ik droom ervan mijn eigen personal assistant te maken

De klanksystemen van Nederland en Fins staan dichter bij die van het Fries, terwijl het Japanse systeem zo anders is dat de stem die met Japans getraind was op de laatste plek eindigde. 

Het is een eerste stap, zegt Do. Momenteel is hij zijn model aan het verbeteren. Hij weet nu dat hij naar het klanksysteem van een taal moet kijken en hij gaat zich hierna richten op de hoeveelheid data die hij van zowel de brontaal als de doeltaal nodig heeft. Zou je toe kunnen met minder uren van de doeltaal en kun je bijvoorbeeld ook te veel data van de brontaal gebruiken? Wat is ideaal? 

Hopelijk kan hij al die kennis op een dag gebruiken om zijn eigen Google Home of Alexa te creeren. Of liever gezegd: eentje voor zijn partner. ‘Zij roept al jaren dat ze wil dat ik een kleine robot voor haar bouw die lijkt op een cartoonfiguurtje dat we allebei leuk vinden: Qoobee, een schattig, mollig, geel draakje uit China. Het is misschien nog lang niet zo ver, maar ik droom ervan om mijn eigen personal assistant te maken.’

English