Dubbelzinnig vertalen

Peter van de Beek
Uit: WCS (Wetenschap, Cultuur en Samenleving), juli-augustus 1996.

Vertalen is geen kraaltjes rijgen. Dat bewijzen de grootscheepse, maar mislukte pogingen tot het ontwikkelen van automatische vertaalcomputers. Waarom de draagbare tolk op zich laat wachten.

Een computer rekent. De mens gebruikt z'n gezond verstand. Kort samengevat is dat de reden waarom het, na een halve eeuw onderzoek, nog steeds niet is gelukt een enigszins taalvaardige vertaalcomputer te ontwerpen: het kastje snapt niets van de wereld om hem heen. Leg een computer maar eens uit dat de zin 'moeder speelt op de piano' anders naar het Engels moet worden vertaald dan 'de kat speelt op de piano'. Wij mensen weten dat katten a-muzikaal zijn en graag ergens bovenop zitten, bijvoorbeeld op een pianoklep ('the cat is playing on the piano'), terwijl moeder daarvoor te groot is en mogelijk liever een deuntje spcelt ('mother is playing the piano'). Maar hoe moet een computer dat weten? Door een universiteitsbibliotheek in zijn geheugen te stoppen'. Dat kan. Maar stel nu dat kleine Jan op de piano speelt. Grote kans dat er dan iets fout gaat bij de vertaling, of dat het vertaalprogramma eerst elders in de tekst gaat zoeken naar extra informatie. Zit Jantje nog in de luiers en kruipt hij over de klankkast, of volgt hij al pianolessen? Zo'n zoektocht vertraagt het vertaalproces. En wie weet is Jan wel een wonderkind. Het probleem zit 'm in het feit dat een computer een machine is. Weliswaar een snelle en veelzijdige machine, maar het blijft een doos zonder brein. Wat de computer (beter gezegd: de software) betreft maakt het niet uit wat voor gegevens hij moet verwerken. Betalingsopdrachten, adventure games, geluid, met een scanner ingelezen foto's, journalistieke kopij: het is hem om het even. Een computer zet patronen van nullen en enen om in andere patronen van nullen en enen, zonder de betekenis ervan te 'proeven'. Mensen hechten betekenis aan de gegevens die het brein passeren, en merken bijvoorbeeld direct dat iemand een onsamenhangend verhaal vertelt. Er is geen sprake van willekeurige verwerking van letters, woorden en zinnen. Zoals de Nijmeegse hoogleraar psycholinguïstiek Willem Levelt het eens omschreef: "Het taalvermogen is denk ik in aanleg een onafhankelijk vermogen. Maar het gaat wel een huwelijk aan met de intelligentie die iemand heeft. Dat zie je ook als iemand door een hersenbeschadiging afasie krijgt: dat is een soort echtscheiding. Een afasiepatiënt scoort niet dramatisch veel slechter op de niet-talige delen van een intelligentietest, maar je kunt wel zien dat hij eronder lijdt dat zijn partner vertrokken is."

Paspop
Een zin provisorisch vertalen vergt kennis van de brontaal en van de doeltaal. Niet zo vreselijk veel - een paar jaar middelbare school is voor de meeste Nederlanders voldoende om een Franse krant te kunnen lezen, althans het weerbericht en de koppen. Maar echt vertalen houdt oneindig meer in dan 'kraaltjes rijgen', het omzetten van een rij Franse woorden in een rij Nederlandse woorden met behulp van een woordenboek. (Hier en daar verwisselen we wat kraaltjes, want we hebben op school geleerd dat de woordvolgorde in het Frans vaak anders is dan in het Nederlands). Voor een echte vertaling moet de vertaler begriipen wat er staat en dat opnieuw vertellen in een andere taal. Soms door letterlijk te vertalen, soms door te interpreteren. Dat vergt intelligentie: het vermogen om in de encyclopedie in ons hoofd de combinatie aan indrukken, ervaringen, beelden en feiten te vinden die het best bij de situatie in de zin past. Iedere zin opnieuw, telkens een nieuwe combinatie. Correct vertalen is een uiterst complex proces. Vreemd genoeg zag men in de jaren vijftig geen verschil tussen kraaltjes rijgen en vertalen, of misschien wilde men het niet zien. Een van de eerste taalkundige opdrachten waaraan de net uitgevonden computer werd gezet, betrof het volledig automatisch vertalen van teksten uit de ene naar de andere natuurlijke taal, in casu van het Russisch naar het Engels. Dat juist dit talenpaar werd uitgekozen, lag voor de hand: in die tijd, het begin van de Koude Oorlog, had de Amerikaanse overheid (vooral de marine, de luchtmacht en de CIA) er grote bedragen voor over om op de hoogte te blijven van de activiteiten van het Oostblok. Vele tientallen miljoenen werden uitgetrokken voor het ontwerpen van computersystemen die in staat moesten zijn zich in hoog tempo door Russische kranten en wetenschappelijke literatuur te worstelen. Onder het motto: iedereen kent zijn eigen taal en weet wel zo ongeveer wat vertalen is, dacht men binnen een paar jaar klaar te zijn. Met groot enthousiasme togen de computerdeskundigen van IBM aan het werk. Het karwei werd een faliekante mislukking. Dat men nog tijdens het project tot het besef kwam dat vertalen meer inhoudt dan het in de machine opslaan van woordenboeken, maar dat ook tenminste de zinsstructuur bij het vertaalproces dient te worden betrokken, kon de zaak niet redden. Na een vernietigende evaluatie in I965 van de tot dan toe behaalde resultaten draaiden de geldschieters de kraan dicht.

Gewapend met veel meer taalkundige kennis - resultaat van de revolutie die de Amerikaanse theoretisch taalkundige Noam Chomsky eind jaren vijftig ontkctende met zijn onderzoek naar de organisatie van natuurlijke talen - deed de Europese Gemeenschap in I982 een nieuwe poging. Ook dit vertaalproject, Eurotra, stond bol van de technische en politieke ambities. Het was de bedoeling dat iedere taal die in de lidstaten werd gesproken (destijds negen) zonder restrictie automatisch zou kunnen worden vertaald in een van de acht andere voertalen, via een systeem van losse modules voor ieder talenpaar (in totaal dus 72 modules). Bovendien moest iedere lidstaat bil het project worden betrokken, of men ervaring had in dergelijk onderzoek of niet. Geen wonder dat de tweehonderd onderzoekers uit heel Europa een fors deel van hun tijd staken in reizen, vergaderen en het oneens zijn over de te gebruiken formalismen en methoden. Na tien jaar onderzoek (kosten: honderd miljoen gulden) rolde er slechts een beperkt vertaalsysteem uit, dat bij lange na niet beantwoordde aan de oorspronkelijke doelstelling. Anno I996 bewerken de twaalfhonderd vertalers van de Europese Unie hun tekstberg - jaarlijks een miljoen pagina's - nog grotendeels met de hand. Het Nederlandse systeemhuis BSO, dat begin jaren tachtig eveneens een vertaalproject startte, gooide het over een andere boeg. In plaats van afzonderlijke systemen voor ieder talenpaar koos men voor een zogeheten interlinguasysteem. Daarbij wordt een tekst die bijvoorbeeld van het Engels naar het Frans moet worden vertaald eerst omgezet in een 'neutrale' tussentaal, en van daaruit naar het Frans. Groot voordeel: het aantal taalmodules groeit niet kwadratisch maar lineair, en blijft dus beheersbaar. Iedere nieuwe taal A die aan het systeem wordt toegevoegd vergt slechts twee extra modules, van de nieuwe taal naar de tussentaal (AT) en andersom (TA). Groot probleem: de keuze van de tussentaal. Kies je daarvoor een natuurlijke taal als Spaans, dan verdubbelt de kans op fouten; het vertaalprobleem Engels-Frans wordt immers omgezet in het vertaalprobleem Engels-Spaans-Frans. BSO dacht het vraagstuk op te lossen door als tussentaal Esperanto te gebruiken, een kunsttaal met een eenvoudige, zeer regelmatige structuur. Maar Esperanto kent weer het nadeel dat de taal niet meer is dan een paspop: om er een echte taal van te maken kleedt de Esperantogebruiker haar aan met kennis van zijn moedertaal. Na acht jaar moeizaam onderzoek en hooggespannen persberichten draaide BS0 het Distributed Language Translationproject in I992 de nek om. Rond dezelfde tijd sneuvelde het Rosetta-project van het Natuurkundig Laboratorium van Philips. Overigens ging het daarbij niet om het concreet ontwikkelen van een vertaalautomaat, maar om het in huis halen van strategische kennis; wellicht zou daar dan een vertaalknecht uit voortkomen, een interactief systeem dat pc gebruiker vragen stelt over de te vertalen tekst.

Wereldkennis
Alle projecten met als doel een universeel systeem te ontwerpen dat automatisch tekst kan omzetten van de ene natuurlijke taal in de andere, zonder tussenkomst van de mens, zijn tot nu toe geflopt. In de kern stuit men steeds weer op dezelfde barriere, zeggen Anton Nijholt en Franciska de Jong, respectievelijk hoogleraar theoretische informatica en hoogleraar taaltechnologie & computerlinguïstiek aan de Universiteit Twente. Die kern is de ingewikkeldheid van natuurlijke taal. Als je uitgaat van normale taal, dus in principe alle constructies en alle woorden, moet je die eerst formeel beschrijven. Dat is al een groot obstakel, maar in een project als Rosetta heeft men het redelijk elegant weten op te lossen. Aan de andere kant: om goed te kunnen vertalen heb je ook 'wereldkennis' nodig. En daarvan staat de formalisering nog steeds in de kinderschoenen. Zolang een vertaalprogramma niet kan beschikken over dat soort kennis, is het probleem dat woorden vaak meer dan één betekenis hebben onoplosbaar. Neem het klassieke voorbeeld dat de Israëlische logicus en wetenschapsfilosoof Bar-Hillel in I964 aandroeg: hoe vertaal je de zin 'The box was in the pen ' Als "De doos stond in het hok"? Dat kan. Maar het woord 'box' kent nog minstens vijftien andere betekenissen, waaronder 'telefooncel', 'tv', 'cadeau' en 'loge in een theater'. Pen staat voor ten minste vijf verschillende obiecten. Een vertaler die niet veel verder komt dan het woordenboek doorbladeren heeft hier dus keuze uit minimaal tachtig combinaties. Globaal gaat de moderne computertaalkunde het probleem van de dubbelzinnigheid van woorden op drie manieren te lijf: via statistische technieken, via 'zelflerende systemen' en door omzeilen van het obstakel. Zowel de statistische benadering (wat is de kans dat 'box in deze context de betekenis 'telefooncel' heeft?) als de ontwikkeling van zelflerende systemen of creatures (waarbij de software een leerproces doormaakt, vergelijkbaar met dat van een kind) verkeren nog in een beginstadium. Beide technieken eisen veel geheugencapaciteit en de beschikbaarheid van grote aantallen elektronische voorbeelddocumenten, willen ze de essentie van bepaalde regelmatigheden 'ontdekken'. Pas de laatste tien jaar wordt aan deze voorwaarden voldaan.

Resteert mogelijkheid drie: als de computer zich niet wil aanpassen aan de mens, dan moet het maar andersom. Daar is niets op tegen, maar het betekent wel dat het concept van een volledig automatische vertaalmachine wordt losgelaten. De Jong: "Hoe meer interactie je toelaat tussen gebruiker en computer, hoe groter de kans op succes. Het is bijvoorbeeld mogelijk de computer een vertaalgeheugen te laten opbouwen, een databank van vakjargon en zinnen waarvoor goedgekeurde vertalingen bestaan. Bij een volgende tekst die die zin bevat, kan de computer dan vragen: "De vorige keer vertaalde je 'm op deze manier, zal ik dat hier ook zo doen?". In combinatie met een slimmere versie van een gewoon meertalig woordenboek kan een menselijke vertaler daarmee veel efficiënter werken. Dat soort toepassingen is inmiddels gerealiseerd." Probleem is wel dat in de praktijk van alledag identieke zinnen nauwelijks voorkomen. Wil een dergelijk systeem functioneren, dan moet zowel het domein (het onderwerp van de tekst) als het taalgebruik aan banden worden gelegd. Controlled language is het concept dat beide dekt: een beperkt lexicon (bijvoorbeeld uitsluitend technische termen), in combinatie met een basic versie van een natuurlijke taal. Te vertalen teksten worden indien nodig zowel vooraf als achteraf bewerkt door een redacteur. Nijholt: "Bedrijven als Krupp, Siemens, Boeing en - toen het nog bestond - Fokker produceren op die manier een deel van hun technische documentatie, zoals vertalingen van onderhoudsmanuals. De auteurs krijgen daarbij strikte opdrachten: schrijf altijd in de tegenwoordige tijd, vermijd al te ingewikkelde syntactische constructies, wees expliciet en zorg ervoor dat ieder woord maar in één betekenis wordt gebruikt Dan krijg je een simpel taaltje, maar het oogt nog als redelijk normaal. En hier en daar werkt het. In Canada bestaat bijvoorbeeld al jarenlang TAUM-Meteo, een systeem dat weerberichten vertaalt van Frans naar Engels en andersom. (Lachend) Okee, dat is natuurlijk maar een heel beperkte verzameling uitdrukkingen. Er staat ook zelden een werkwoord in het weerbericht. 'Matige wind, kracht 3', dat is toch geen zin. Althans geen zin die een taalliefhebber een normale zin zou noemen." Overigens zal het bedrijven als Boeing waarschijnlijk een zorg zijn of hun manuals in Simplified English, Siemens-Deutsch of Fokker-Engels worden gewaardeerd om hun literaire kwaliteiten: als er maar kan worden bespaard op de kosten van updaten en vertalen van tekstmateriaal. 'Gecontroleerd' taalgebruik reduceert bovendien de kans op fouten op de werkvloer. Men bedenke dat de handleiding van de Amerikaanse MI-tank circa 61.000 pagina's telt; de vracht papier die de Europese Airbus beschrijft is even zwaar als het vliegtuig zelf.

Geldschieter
Het ziet er dus naar uit dat op het continuum met aan de ene kant een volledig automatische vertaalcomputer en aan de andere kant een vertaler van vlees en bloed, de aandacht meer naar de laatste verschuift. Verdwenen is het naïeve optimisme (zo men wil hoogmoed) waarmee onderzoekers van circa 1950 tot in de jaren tachtig verkondigden dat hun project het vertaalprobleem van de wereld zou oplossen, al dan niet online. Bescheiden ambities, haalbare oplossingen en voorzichtige woorden zetten tegenwoordig de toon. Luister naar Franciska de Jong, in haar antwoord op de vraag of het onderzoek in haar vakgebied nog immer de belangstelling van Brussel heeft. "Zeker, zeker. Wat ons land betreft is de Europese Commissie zelfs nog steeds de grootste geldschieter. De Europese Unie heeft een aantal concepten hoog in het vaandel staan als het gaat om financieren van onderzoek en ontwikkeling, en een daarvan is de multilingual information society. Dat behelst de bescherming van de identiteit van landen met kleinere talen, denk aan Nederland, en tegelijkertijd de ontwikkeling van technische middelen die bijdragen aan een efficiëntere informatie-uitwisseling. Zo loopt er hier in Twente een Europees project op het gebied van multilingual indexing, bedoeld voor potentiële gebruikers die zich bezighouden met milieuvragen. Daarbij gaat het om systemen om documenten in grote tekstbestanden te labellen en terug te vinden, zodat je snel allerlei informatie kunt traceren over bijvoorbeeld windenergie. 0ok in anderstalige documenten en ook wanneer een document over alternatieve energie gaat maar de term windenergie niet gebruikt. Dat is typisch een gebied waarbij je met een robuuste aanpak een flink eind kunt komen. Heel precieze beschrijvingen zijn niet nodig. De score aan relevante documenten hoeft immers niet honderd procent te zijn om toch te kunnen spreken van een nuttig systeem." Nijholt, nuchter: "Tegenwoordig is het zo: wil je ergens geld kunnen lospeuteren, dan moet er iets uit je onderzoek komen dat op vrij korte termijn praktisch toepasbaar is. Iets waarbij ook niet alleen de taalmodules in orde zijn, maar het hele traject van gebruiker tot hardware." Daarmee verdwijnt de automatische vertaalcomputer nog verder uit het zicht. Komt er nog ooit een draagbare tolk waarmee je, via toetsenbord of microfoon, een vlekkeloos gesprek kunt aangaan in een willekeurig buitenland? Nijholt, gnuivend: "Ja hoor, in 2050. Af en toe vindt er in ons vak een technology assessment plaats, om te kijken hoe men over de toekomst denkt. Op de vraag 'Wanneer komt de intelligente telefoon, waarbij je inspreekt in het Engels en er iets uitkomt in het Japans?' zeggen de experts: 'In 2050'. Met andere woorden: 'Geen flauw idee. Dat is een ontwikkeling die nog zo ver weg is dat zelfs de generatie na ons die niet meer meemaakt.'"

Literatuur:

Rik Smits, 'Het onzalig huwelijk van taal en computer', uit de bundel 'Radar 96';
Liesbeth Koenen, 'Het vermogen te verlangen (negen letters) - gesprekken over taal en het menselijk brein',
Nijgh & Van Ditmar, Amsterdam 1990;
Anneke Neijt en Dik Bakker (red.), 'Computerlinguïstiek',
Foris, Dordrecht/Providence 1990; 'Vertalers in zicht', Nederlands Genootschap van Vertalers, Haarlem 1981;
Anton Nijholt, 'De Bovenste Plank', oratie Universiteit Twente, september 1994;
Franciska de Jong, 'De Onderste Steen', idem.
Back to Anton Nijholt's Homepage.