Google-Übersetzer arbeitet mit Interlingua
Google Translate bietet Textübersetzungen zwischen 52 Sprachen an, darunter viele Sprachrichtungen, die sonst nirgendwo abgedeckt werden, wie beispielsweise Deutsch-Suaheli oder Deutsch-Kreolisch, aber auch Suaheli-Kreolisch.
Bis Oktober 2007 arbeitete im Hintergrund die Übersetzungsmaschine von Systran, seitdem beruht Google Translate auf einem von Google selbst entwickelten statistischen Übersetzungssystem. 2004 war mit Franz-Josef Och ein führender Experte dieses neuen Übersetzungsparadigmas zu Google gekommen. Das unter der Führung von Och entwickelte System erwies sich als sehr erfolgreich. Bei der NIST Open Machine Translation Evaluation 2005 ließ Google damit sämtliche Konkurrenten, inklusive IBM und Systran, weit hinter sich. Grundlage für die Google-Übersetzungsmaschine sind übersetzte Texte in rauen Mengen. Laut Och benötigt man als Basis, um ein statistisches Übersetzungsmodell aufbauen zu können, übersetzte Texte im Umfang von mindestens einer Million Wörtern pro Sprache.
Man kann sich fragen, wo so viel Paralleltext für z.B. Deutsch-Kreolisch (oder gar Kreolisch-Suaheli) herkommen soll. Und in der Tat hat anscheinend nicht einmal Google ausreichend viel davon, genausowenig wie für Sprachpaare wie Deutsch-Tschechisch, denn der Google Translator arbeitet stets mit Englisch als Interlingua. Wenn man die Übersetzungsrichtung Deutsch->Tschechisch auswählt, dann übersetzt Google hinter den Kulissen erstmal Deutsch->Englisch, dann Englisch->Tschechisch, und gibt das tschechische Ergebnis aus. Das kann jeder selbst ausprobieren: einfach einen tschechischen Absatz aus einer Online-Zeitung in den Google Translator kopieren. Beim “direkten” Übersetzen ins Deutsche kommt exakt dasselbe Ergebnis heraus wie beim Übersetzen in zwei Schritten, d.h. wenn man erst Tschechisch->Englisch übersetzt, und dann das englische Ergebnis ins Deutsche übersetzten lässt.
Dadurch erspart Google es sich, 52*51 = 2.652 statistische Sprachmodelle für alle unterstützten Sprachrichtungen aufzubauen. Mit dem Interlingua-Ansatz reichen 51 Übersetzungsmodelle. Andererseits ist die erreichbare Übersetzungsqualität dadurch natürlich eingeschränkt, wie am Beispiel “Ufer” demonstriert werden kann: da gibt Google nämlich die tschechische Übersetzung “banky” (dt. “Banken”) aus, was sich durch die Mehrdeutigkeit, die vom englischen “bank” im Zwischenschritt eingeführt wird, erklären lässt.


[...] sich schon immer gefragt hat, wie der Google-Übersetzer arbeitet, kann sich Peters Artikel im Linguatools-Blog durchlesen, in dem er beschreibt, mit welchem Trick es Google schafft zwischen 52 Sprachen zu [...]
Pingback von Wie arbeitet der Google-Übersetzer? | Tschechisch-Blog — 11. März 2010 @ 08:38
Das Google nach so einer Methode arbeitet habe ich nicht gewusst. Macht auch irgendwie Sinn, Übersetzungen zuerst in die eigene Muttersprache zu übersetzen und in weiterer Folge in die Ziel-Sprache. Aber man muss leider sagen, Standardübersetzungen, ja, das wird wohl recht gut funktionieren. Aber wenn es um Feingefühl bei Übersetzungen geht, da wird es selbst für Google schwer das zu lösen.
Kommentar von Philip — 24. März 2010 @ 02:36
[...] in der Sprache und zu Englischen übersetzt worden….” bestätigt, dass wir mit unserer Evaluation richtig [...]
Pingback von Linguatools-Blog » Interview mit Franz Josef Och, Teamleiter von Google Translate — 20. Juni 2010 @ 19:15