7. Juli 2010

Visualisierung von Wortfeldern: Translation Explorer

Wenn man im Wörterbuch die Übersetzungen eines Wortes nachschlägt, und dann zu allen gefundenen Übersetzungen wiederum die Übersetzungen zurück in die Ausgangssprache nachschlägt, erhält man Graphen wie den folgenden für das Ausgangswort “witzig”:

Graph zu witzig

Graph zu witzig

Den Graphen hat der Prototyp unserer neuen Anwendung Translation Explorer generiert. Die Wörter der Ausgangssprache sind orange unterlegt, die Wörter der zweiten Sprache blassrosa. Das Ausgangswort befindet sich in der Mitte des Graphen. Im Gegensatz zu den hier gezeigten Screenshots sind die Graphen im Translation Explorer interaktiv. Wenn man ein Wort anklickt, werden diejenigen Wörter, die direkt damit verbunden sind, farblich hervorgehoben (das sieht man weiter unten im Graphen zu “grow”, wo “wachsen” angeklickt wurde). Man kann den Graphen auch auseinanderziehen, mit dem Scrollrad hinein- und hinauszoomen und einzelne Wörter woandershin bewegen.

Wozu sind die Graphen gut? Im folgenden stellen wir drei Einsatzmöglichkeiten vor.

Synonyme finden
Im Graphen zu “witzig” findet man unter den Rückübersetzungen viele Synonyme zum Ausgangswort, wie “spaßig”, “lustig”, “drollig” usw.
Welche Synonyme gibt es für das englische Verb “grow”, und zwar im Sinne von “wachsen”? Ein Blick auf den folgenden Graphen liefert die Antwort.

Graph für grow

Graph für grow

Die richtige Übersetzung in einem bestimmten Kontext finden
Wie sagt man “eine Kugel Eis” auf Englisch? Die Übersetzungen für “Kugel” sind:

spheric spherical ball bowl bullet globe orb orbicule scoop shot slug sphere

Hier der Graph zu “Kugel”:

Graph für Kugel

Graph für Kugel

Die passendste Übersetzung wäre wohl “scoop”, da dieses Wort wiederum mit “Kelle” oder “Schöpfer” ins Deutsche übersetzt wird (oben im Graphen). Tatsächlich sagt man im Englischen “a scoop of ice cream”.

Eine nützliche Erweiterung des Translation Explorers wäre eine Suchanfrage nach Belegstellen, wo man die fragliche Übersetzung dann gleich in echten Textbeispielen überprüfen kann.

Rundreise durch den Wortschatz
Mit einem Rechts-Klick auf ein Wort wird der Graph um dieses Wort anzeigt, so dass man graphisch durch den ganzen Wortschatz “surfen” kann. Das ist nicht nur für visuell veranlagte Leute vielleicht eine motivierendere Art Vokabeln zu “büffeln”.

22. Juni 2010

Einfach ist besser: Konrad Zuse zum Hundersten

Abgelegt unter: Allgemein — Tags:, , , , , , , , , , — Peter @ 11:47

Heute wäre Konrad Zuse 100 Jahre alt geworden, der Mann, der 1941 in Berlin mit der Z3 den ersten funktionsfähigen Computer der Welt baute.
Bereits 100 Jahre davor, nämlich 1837, hatte der Engländer Charles Babbage den ersten nicht funktionsfähigen Computer entworfen, die Analytical Engine. Trotz finanzieller Unterstützung durch die Britische Regierung gelang es ihm bis zu seinem Tod 1871 nicht, seinen Entwurf in die Tat umzusetzen.
Zuse dagegen bastelte 1937 seinen ersten Rechner, die Z1, im Kreuzberger Wohnzimmer seiner Eltern zusammen. Sein Entwurf hatte nämlich einen entscheidenden Vorteil gegenüber dem von Babbage: Er arbeitete digital, d.h. er rechnete nur mit Nullen und Einsen, während Babbages Computer im Dezimalsystem rechnen sollte.
Ein Apparat, der 10 verschiedene Zahlen so miteinander kombiniert, dass beispielsweise eine Addition ausgeführt wird, ist ungleich schwieriger zu bauen als einer, der nur die zwei Zahlen Null und Eins addiert. Das ist nämlich ganz einfach: dafür reichen ein paar simple Schalter. Die anderen Grundrechenarten lassen sich auf die Addition zurückführen. Für einen vollständigen Computer fehlen jetzt noch Speicher und Steuereinheiten, die sich ebenfalls mit Schaltern aufbauen lassen. Ein elektrisch gesteuerter Schalter ist das Relais. Zuses Z3 bestand aus 2.000 Telefonrelais.
In den fünfziger Jahren wurden die elektromechanischen Relais durch Transistoren ersetzt, die dann in den 1960er Jahren in großen Mengen auf kleine Silizium-Chips aufgebracht werden konnten. Die heutigen Computerchips wie der Intel Core 2 enthalten auf einem daumennagelgroßen Chip mehrere hundert Millionen Transistoren.

Hier in Berlin-Moabit steht ein Denkmal von Konrad Zuse (siehe Foto). Es befindet sich zwischen Innenministerium und Spree, unweit der Moabiter Brücke (Kirchstr.).

zuse-denkmal-1

konrad-zuse-tafel-1konrad-zuse-tafel-2

20. Juni 2010

Interview mit Franz Josef Och, Teamleiter von Google Translate

Abgelegt unter: maschinelle Übersetzung — Petra @ 17:50

Richard Gutjahr im Gespräch mit Franz Josef Och. Der Satz von Och “Sehr schwierig sind die Sprachen, für die wir nicht so viele Trainingsdaten finden, das heißt nicht so viele Daten, die in der Sprache und zu Englischen dann übersetzt worden….” bestätigt, dass wir mit unserer Evaluation richtig lagen.

11. Juni 2010

Portale mit zweisprachigen Beispielsätzen zum Nachschlagen von Übersetzungen

Abgelegt unter: translation memory, Übersetzung — Tags:, , , — admin @ 11:18

Wie findet man heraus, wie ein Wort richtig verwendet wird? Richtig, in dem man in einem Textkorpus die richtige Verwendung im Kontext nachschlägt. Für deutsche Sätze z.B. in der Korpussammlung vom IDS und für englische Sätze z.B. im British National Corpus. Das Nachschlagen in solchen einsprachigen Korpora eignet sich für Muttersprachler oder für fortgeschrittene Sprecher. Wenn jedoch ein Deutschsprachiger mit Anfängerkenntnissen des Englischen eine englische Übersetzung für einen Begriff sucht, kann er nur anhand des Kontextes entscheiden, welche Übersetzung die passende ist. Da er nicht richtig Englisch kann, kann er mit nur einem einsprachigen Korpus nichts anfangen und braucht daher die entsprechende deutsche Übersetzung. An dieser Stelle braucht er also zweisprachige Beispielsätze, in denen er nachschauen kann. Ein paar solcher Portale, die außer uns zweisprachige Beispielsätze zum Durchsuchen anbieten gibt es schon. Je nach Sprachpaar variiert nur die Menge an zweisprachigen Beispielsätzen, die zum Suchbegriff geliefert werden.

Nennenswerte Anbieter zweisprachiger Beispielsätze sind diese sechs (in alphabetischer Reihenfolge):

lingo24linguatoolslingueemymemoryTatoebataus

13. Mai 2010

Relaunch des deutsch-spanischen Wörterbuchs

Seit Juli 2009 ist linguatools deutsch-spanisches Satzarchiv bereits online und erfreut sich steigender Beliebtheit. Jetzt nach neun Monaten erfolgte die “Wiedergeburt” zu einem richtigen Wörterbuch und das nicht zu irgendeinem. Im Gegensatz zu herkömmlichen Wörterbüchern werden bei diesem Wörterbuch zu jeder Übersetzung Verwendungsbeispiele angezeigt, was ungemein die Entscheidung erleichtert, welche der angebotenen Übersetzungen die geignete oder gar nur die einzig richtige ist.

Schauen wir uns zum Beispiel an, welche spanischen Übersetzungen uns das Wörterbuch für das Wort “schließen” liefert. Wir erhalten insgesamt zehn verschiedene Übersetzungen, wobei eine davon Teil einer festen Wortverbindung ist:

cerrar clausurar concluir deducir finalizar llegar a una conclusión encerrar tapar levantar colmar

Wenn man Spanisch nicht beherrscht, fragt man sich wahrscheinlich nun, welche Übersetzung die passende für den jeweiligen Verwendungszweck ist. Genau an dieser Stelle setzt das linguatools-Wörterbuch an und präsentiert zu jeder Übersetzung eine Menge zweisprachiger Beispielsätze, aus denen ersichtlich ist, ob es DIE Übersetzung ist, nach der man gesucht hat.

Das Anklicken der oben auf der Seite präsentierten spanischen Übersetzungen zum gesuchten Wort führt zum Übersetzungspaar mit den jeweiligen zweisprachigen Verwendungsbeispielen. Zusätzlich bei jedem Übersetzungspaar findet man noch eine Anmerkung auf welche Weise dieses spanische Wort widerum ins Deutsche übersetzt wird. Nehmen wir zum Beispiel das Übersetzungspaar Schließen:cerrar. Bei “wird noch übersetzt mit” stehen folgende Wörter, die gleichzeitg als Synonyme zu “schließen” verstanden werden können:

absperren, blockieren, dichten, sperren, verschließen

Auch für Suchwörter, für die keine direkte Übersetzung in unserem Wörterbuch gefunden wird, werden zweisprachige Beispielsätze angezeigt. Links der Beispielsatz in der einen Sprache mit dem gesuchten Wort und rechts der entsprechende übersetzte Satz aus dem die gesuchte Übersetzung “herausgefischt” werden kann.

Das Wörterbuch enthält zum jetzigen Zeitpunkt 96.000 Übersetzungen und feste Wortverbindungen vorwiegend aus Wikipedia und dem Wiktionary, sowie fast 2,5 Millionen zweisprachige Beispielsätze, die hauptsächlich aus Reden des Europäischen Parlaments stammen. Einen großen Teil an Beispielsätzen bilden auch die Zeitungskommentare, die aus dem Projekt Syndicate stammen, sowie die Untertitel, die von http://www.opensubtitles.org/ stammen.

Die User sind eingeladen, weitere Übersetzungen in das linguatools-Wörterbuch einzutragen und somit zur Erweiterung des Kontext-Wörterbuchs beizutragen.

10. Mai 2010

Lebenslanges Lernen

Abgelegt unter: Allgemein — Tags:, , , , , , , — Peter @ 03:15

Mittlerweile ist es weit verbreitet, an eine Genitivgruppe einen Relativsatz im Dativ anzuschließen, also z.B.:

So soll der Titel des Transformprogramms, dem Beratungskonzept der Bundesregierung für Osteuropa, kontinuierlich abgebaut werden [...]
Parlamentsrede

Neu ist, dass jetzt auch der Nominativ verwendet wird:

Lebenslanges Lernen – dieser Leitgedanke der Klett Gruppe, das größte Bildungsunternehmen im deutschsprachigen Raum, ist es, der uns verbindet und uns auf der Suche nach dem Neuen immer andere Wege gehen lässt.

Anzeige der Klett Gruppe, Hochschulanzeiger, Mai 2010, S. 25

Man lernt eben nie aus. Oder sollte man besser sagen: Man lernt nie. Aus.

19. April 2010

Von Konsum-Enten und Punk-Tieren

In einem Posting vor einiger Zeit habe ich einige Probleme aufgezählt, die dem Computer das automatische Übersetzen erschweren. Eines der Hauptprobleme – zumindest im Deutschen – habe ich aber nicht erwähnt: zusammengesetzte Substantive (Komposita). Bei der Sammlung von unfreiwillig komischen Computerübersetzungen auf der schon einmal zitierten Seite von Stefan Winterstein handelt es sich in fast allen Fällen um Komposita. Besonders lustig finde ich die Übersetzung chewing case republic für Kaukasusrepublik (Kau-Kasus-Republik).

Da täglich zahllose neue Komposita gebildet werden (dokumentiert z.B. von der Wortwarte), ist es unmöglich, alle in einem Wörterbuch aufzuzählen. Deswegen benötigt ein Übersetzungsprogramm eine Komponente, die Komposita automatisch in ihre Bestandteile zerlegt, damit diese Teile dann im Wörterbuch nachgeschlagen und übersetzt werden können. Leider ist die automatische Zerlegung von Komposita äußerst schwierig, denn sehr oft gibt es mehr als eine Zerlegungsmöglichkeit.

Eine erste Verkomplizierung der Angelegenheit bringen die Fugenelemente mit sich, z.B. das Fugen-s wie in Leistungsfähigkeit. Es gibt auch Auslassungsfugen (Elisionsfugen) wie in Birnbaum, wo das -e am Ende von Birne wegfällt, und sogar Kombinationen aus Auslassung und Fugen-s, wie in Mietskaserne.

Beim Zerlegen muss man also die Fugenelemente berücksichtigen. Deswegen kann man Gipfelsturm auf zwei Arten zerlegen: Gipfel-Sturm oder Gipfels-Turm. Bei diesem Beispiel gäbe es ein linguistisches Kriterium, die zweite Zerlegung zu verwerfen, denn auf Gipfel folgt nie eine s-Fuge. Die Fuge richtet sich nämlich nach dem vorangehenden Wort, jedes Wort hat eine Reihe von möglichen Kompositionsstammformen. Für Miete sind das Miet (Miethai), Miets (Mietshaus) und Mieten (Mietenerhöhung). Für Gipfel ist das nur Gipfel, dagegen kommen Gipfels oder Gipfeln nie als Erstglieder in einem Kompositum vor. Es könnte also höchstens einen Gipfel-Turm geben, aber keinen Gipfels-Turm. Dummerweise gibt es aber keine Liste mit Kompositionsstammformen für alle Wörter.

Aber auch ohne Fugenelemente gibt es oft mehrere Zerlegungsmöglichkeiten. Unser Kompositazerleger KOKOZ, den wir gerade im linguatools-Labor zusammenbrauen, behauptete gestern, das Patentieren (von Erfindungen) hätte etwas mit godfathers animals zu tun (Paten-Tieren). Solche Fehlanalysen könnte man durch Abgleich der grammatischen Merkmale mit dem Kontext herausfiltern. Denn Tieren ist sächlich und Dativ Plural, der Artikel das passt damit nicht zusammen (nur den). Allerdings müsste man dazu erst einmal eine syntaktische Analyse durchführen.

Bei anderen Komposita helfen weder Fugenregeln noch grammatische Merkmale. Beide würden unseren Zerleger nicht daran hindern, Konsumentenverhalten mit consumption ducks behaviour zu übersetzen (Konsum-Enten-Verhalten). Wir bräuchten einen “Quatschfilter”, der dem Zerleger sagt, dass es keine Konsum-Enten gibt, und dass Konsumenten sehr viel wahrscheinlicher sind. Bei anderen Zusammensetzungen sind jedoch beide Zerlegungen sinnvoll: ob es sich bei Staubecken um Staub-Ecken oder Stau-Becken handelt, hängt vom Kontext ab.

Zum Schluss noch weitere Beispielausgaben unseres Kompositazerlegers:

das Punktieren punk animals Punk-Tieren
das Verstauben verse pigeons Vers-Tauben
Staffelei relay egg Staffel-Ei
Leistungen quietly do gene Leis(e)-tun-Gen
Messerattentat fair rats action Messe-Ratten-Tat
Sonderauszählungen probe rough countings Sonde-rau(s)-Zählungen
Betriebsausflug company sow flight Betrieb-Sau(s)-Flug
Bundessteuerbehörde federal eat expensive authority Bund-ess-teuer-Behörde
31. März 2010

Mensch gegenüber Maschine: Technologie in der Übersetzungsbranche

Abgelegt unter: Übersetzung — admin @ 08:39

– Gastbeitrag –

Mensch gegenüber Maschine: eine uralte Auseinandersetzung, die seit Jahrhunderten für Streit sorgt. Bis zurück in die Zeit der Ludditen, den britischen Textilhandwerkern, die sich im 19. Jahrhundert daran machten, systematisch Webmaschinen zu zerstören, die die industrielle Revolution hervorgebracht hatte, haben sich die Menschen traditionell zunächst gegen technischen Fortschritt gesträubt…und ihn später doch bereitwillig angenommen, nachdem seine ganzen Vorteile erkannt worden waren.

Freilich tragen Technik und Maschinen zweifelsfrei dazu bei, dass Menschen ein wesentlich leichteres Leben führen. Aber in welchem Ausmaß können Maschinen tatsächlich das übertreffen, zu dem ein Mensch imstande ist? Nun, tatsächlich sogar in einem ziemlich hohen Maß. Ein Auto bringt uns in weit weniger als einer Stunde weiter als 80 km. Haben Sie schon einmal versucht, eine solche Strecke zu laufen? Und ein Skalpell kann es nicht mit der Präzision der Laserchirurgie aufnehmen.

Die technische Revolution ist jetzt voll im Gang, und die Menschen nehmen diese Veränderungen begeisterter hin als je zuvor. Das Internet, Handys, tragbare Spielkonsolen, MP3-Player…überall umgeben uns Technik und technische Spielereien.

Wir sind uns also darüber einig, dass Technik phantastisch ist. Gibt es aber Bereiche, in denen Menschen der Technik immer überlegen sind? Gibt es irgendetwas, worin Maschinen niemals einen Homo sapiens aus Fleisch und Blut schlagen werden?

Nun, wenn wir einmal die Tatsache beiseite lassen, dass es immerhin Menschen sind, die tatsächlich all diese großartigen Maschinen und Apparate überhaupt erst bauen, gibt es doch immer noch Bereiche, in denen wir nicht zu ersetzen sind. Haben Sie schon einmal einen Roman oder ein Gedicht gelesen, das von einem Computer geschrieben wurde? Oder einen hitverdächtigen Song gekauft, den ein Pentium komponiert hat? Natürlich nicht. Maschinen sind gut, aber nicht so gut.

Sprache beherrschen zum Beispiel wir Menschen am besten. Google, Yahoo, Bing und dergleichen bieten hochentwickelte Maschinenübersetzungen auf einem ziemlich beeindruckenden Niveau an. Die Technik verkleinert zweifellos die Kluft, aber werden Maschinenübersetzungen jemals eine der Arbeit eines Übersetzers gleichwertige Qualität erreichen können? Nein. Maschinen werden niemals in der Lage sein, Stil, Kontext, Kultur oder Nuancen einer Sprache zu verstehen.

Wenn Sie den Text einer E-Mail in einer fremden Sprache von Google übersetzen lassen, ist es möglich, dass Sie den übersetzten Inhalt der Nachricht halbwegs verstehen können. Sie werden jedoch merken, dass er nicht vollkommen richtig klingt.

Stellen Sie sich nun einmal einen komplexeren Text vor, etwa einen Roman, der eine weit größere Anzahl von Adjektiven und Substantiven, Metaphern und umgangssprachlichen Ausdrücken enthält und in dem es vor lauter Synonymen nur so wimmelt. Stellen Sie einmal Google Translate mit ein paar Absätzen aus den Werken Oscar Wildes oder Karl Mays auf die Probe, und Sie werden schnell erkennen, wer tatsächlich der Meister auf dem Gebiet der Übersetzung ist.

Sprache ist ein wahrhaft phantastisches Kommunikationsmittel. Sie stellt auch eine der letzten echten Barrieren dar, die es zur Schaffung eines globalen Dorfes zu überwinden gilt. Und sollten sich nicht alle 6 Milliarden Menschen auf der Welt auf eine einzige gemeinsame Sprache einigen, wird sich daran auch nichts ändern. Und genau aus diesem Grund ist Sprache als Instrument in der heutigen Zeit einer digitalen, globalisierten und rund um die Uhr kommunizierenden Welt von so zentraler Bedeutung.

In allen Sprachen finden sich unzählige Eigenheiten, die illustrieren können, warum Menschen im Vergleich mit Maschinen immer die Oberhand behalten werden, wenn es ums Übersetzen geht. Etliche Wörter lassen sich einfach nicht sehr gut von einer Sprache in die andere übersetzen.

Schadenfreude ist beispielsweise ein deutsches Wort, das die Freude über das Missgeschick oder Unglück anderer zum Ausdruck bringt. Im Englischen gibt es kein einzelnes Wort, das genau diese Bedeutung hat. Es wäre daher in der Übersetzung eine sehr detaillierte Umschreibung nötig, die die linguistische Gewandtheit eines menschlichen Übersetzers erfordert.

Dann gibt es noch als anderes Beispiel aus dem Deutschen die Torschlusspanik, eine Metapher, die die Befürchtung ausdrückt, noch nicht verwirklichte Ziele, vornehmlich aus Altersgründen, möglicherweise nicht mehr zu erreichen. Diese Metapher wird meist für Frauen verwendet, die unter Handlungsdruck gegen ihre biologische Uhr geraten.

Nicht vergessen sollte man auch den recht beeindruckenden Donaudampfschifffahrtsgesellschaftskapitän, ein Mehrfachkompositum, das aus verschiedenen Hauptwörtern zusammengesetzt ist und einen Kapitän bezeichnet, der für die Donaudampfschifffahrtsgesellschaft (DDSG) tätig ist. Dieses Wort wird selbstverständlich in unseren Tagen kaum noch benutzt (wann sind Sie zuletzt auf einem Dampfer gereist?), ist aber ein ausgezeichnetes Beispiel für Wörter, die sich nicht so ohne Weiteres ins Englische übersetzen lassen.

Der amerikanische Humorist Mark Twain schrieb einmal: „Manche deutschen Wörter sind so lang, dass man sie nur aus der Ferne ganz sehen kann.“  Aber der Grund dafür, dass deutsche Wörter oft so viel länger als zum Beispiel englische Wörter sind, liegt natürlich, genau wie bei dem obengenannten Wortriesen aus 42 Buchstaben, darin, dass im Deutschen Komposita verwendet werden, die aus mehreren Wörtern zusammengesetzt sind. Deshalb sind sie nicht immer so einfach zu übersetzen.

Auch im Japanischen gibt es viele Wörter, die sich nicht sehr gut von einer Sprache in die andere übersetzen lassen. Das Wort Kyoikumama
bezeichnet eine Mutter, die ihre Kinder schonungslos zu akademischen Höchstleistungen antreibt. Und im Italienischen ist untore ein ganz spezieller Sündenbock des 17. Jahrhunderts: Während die Pest wütete, konnten die Menschen keine Erklärung dafür finden, wie die Krankheit übertragen wurde. Sie machten dafür eine erdachte Person verantwortlich, die in ihrer Vorstellung von Tür zu Tür ging und die Krankheit so in den Gemeinden verbreitete.

Das Wort, das häufig unter Übersetzern als eines der am schwierigsten zu übersetzenden Wörter gilt, ist Ilunga, ein Wort aus der Sprache Tschiluba, die im Südosten der Demokratischen Republik Kongo (DR Kongo) gesprochen wird. Dieses Wort bezeichnet einen Mann, der bereit ist, eine Beschimpfung beim ersten Mal zu verzeihen, sie beim zweiten Mal zu tolerieren, aber beim dritten Mal weder zum Vergeben noch zum Verzeihen dieser Beschimpfung bereit ist. Wenn es einem professionellen Übersetzer Mühe machen kann, ein solches Konzept in eine andere Sprache zu übertragen, wie würde dann Google Translate damit zurechtkommen? Uns schaudert bei dem bloßen Gedanken daran.

Die Unterschiede zwischen Sprachen beschränken sich aber nicht allein auf eigentümliche Wörter, die schwer zu übersetzen sind. In allen indoeuropäischen und semitischen Sprachen (also den meisten europäischen Sprachen sowie einigen anderen Sprachen im Nahen Osten, in Afrika und Asien) werden beispielsweise „Artikel“ verwendet. Im Deutschen gibt es der, die, das, ein und eine, und im Englischen the, a und an.

In den Sprachen Chinesisch, Japanisch, Hindi, Malaiisch und Russisch gibt es genaugenommen keine Artikel, wenn dort auch manchmal Wörter verwendet werden, die als Artikel fungieren.

In einigen Sprachen werden bestimmte Artikel – beispielsweise der oder the – nicht immer als eigenständiges Wort benutzt und können ebenso als Suffix am Ende eines Substantivs vorkommen. Das Wort für Haus ist zum Beispiel im Schwedischen hus, aber das Wort für das Haus ist huset. Gleichermaßen ist das Wort für Straße auf Rumänisch drum, aber die Straße heißt drumul.

Sprache ist etwas wirklich Herrliches. Obwohl die meisten Mundarten eine gemeinsame Ursprache teilen, gibt es so viele subtile – und weniger subtile – Unterschiede zwischen den unzähligen Sprachen der Welt, dass nur Menschen in der Lage sind, diese Nuancen wirklich zu verstehen. Maschinen sind Menschen in vielen Bereichen überlegen, aber wenn es um Sprachen und Übersetzungen geht, können sie es mit Menschen nicht aufnehmen.

Über den Autor

Christian Arno ist Gründer und Geschäftsführer des internationalen Anbieters für Übersetzungsdienstleistungen Lingo24. Lingo24 ist in mehr als 60 Ländern für Kunden aus sämtlichen Industriezweigen tätig und erzielte im Jahr 2009 einen Umsatz von €4 Mio. Besuchen Sie Christian Arno auf Twitter: @Lingo24chr.



24. März 2010

linguatools Firefox-Add-on

Abgelegt unter: deutsch-englisch — Tags:, — Petra @ 03:14

Bisher musste man die URL linguatools.de betreten, um Vokabeln und die zugehörigen Verwendungsbeispiele in unserem deutsch-englischen Wörterbuch nachzuschlagen. Ab sofort können Sie das linguatools-Wörterbuch auch direkt aus dem Firefox-Fenster durchsuchen, wenn Sie das entsprechende linguatools-Firefox-Add-on installieren. Nach der Installation ist nur noch ein Neustart des Firefox-Browsers notwendig um das Add-on zu aktivieren.

Sobald Sie das Firefox-Add-on aktiviert haben, können Sie damit das linguatools-Wörterbuch auf zweierlei Art durchsuchen:

Erstens mittels des Suchfelds ganz oben rechts neben der URL-Leiste des Firefox-Fensters. Neben den standardmäßig installierten ’search engines’ ist dann auch das frisch installierte Add-on dabei, das Sie zur Vokabelsuche verwenden können. Sie erkennen es an diesem Symbol:

linguatools-fav-32x32

Lt steht für Linguatools. Ich hoffe, dass ist klar ;-)

Alternativ können Sie das Add-on verwenden, indem Sie ein beliebiges Wort im Firefox-Fenster markieren und im Kontextmenü (das Sie über die rechte Maustaste erreichen) Search Linguatools for “markiertes Wort” auswählen.

In beiden Fällen öffnet sich ein neues Firefox-Tab mit den Resultaten Ihrer Suche.

Zur Zeit befindet sich das Add-on noch im experimentellen Status. Falls Sie Probleme damit bemerken oder es sich nicht installieren lässt, freuen wir uns über ein kurzes Feedback mit der Angabe welches Betriebssystem und welche Firefox-Version Sie verwenden.

16. März 2010

Daten oder Regeln?

Am Anfang der Aufklärung zweifelte Rene Descartes an allem, woran er zweifeln konnte, bis er schließlich in seinem Verstand etwas fand, an dem er nicht zweifeln konnte: sein Zweifeln. Er schloß: “Ich denke, also bin ich.” Der Mensch habe angeborene Ideen, die vor aller Erfahrung in seinem Verstand gegeben seien. Im Gegensatz dazu bestritt John Locke als Vertreter des Empirismus, dass der Mensch angeborene Ideen besitze: Bei der Geburt gleiche der Verstand einem unbeschriebenen Blatt. Alles Wissen entstamme Erfahrungsdaten: “Es ist nichts im Verstand, das nicht zuvor in den Sinnen gewesen ist.” Darauf entgegnete dann wieder der Rationalist Leibniz: “Ausgenommen der Verstand selbst” usw.

Dieser uralte philosophische Streit zwischen Empirismus und Rationalismus wird auch in der Computerlinguistik ausgefochten. Gibt es eine angeborene Universalgrammatik, die allen Sprachen zugrunde liegt, oder fangen die Kinder beim Spracherwerb bei Null an? Im letzteren Fall würden sie aus den Sprachdaten, die sie von ihren Eltern hören, eine Grammatik der jeweiligen Sprache extrahieren und könnten dann unendlich viele korrekte Sätze dieser Sprache bilden. Die Grammatik wäre also aus der Erfahrung, d.h. den Daten, lernbar. Für die Anhänger der Universalgrammatik dagegen sind Daten völlig uninteressant; die Grammatik ist ja im Kopf schon drin, unabhängig von irgendwelchen Daten. Sie lehnen es sogar ab, mit Hilfe von Daten, also beobachteten sprachlichen Äußerungen, Rückschlüsse auf die Grammatik im Kopf zu ziehen, denn die beobachteten Daten stecken voller Fehler: die Sprecher verhaspeln sich, versprechen sich, korrigieren sich, vertippen sich, sind unkonzentriert usw.

In der Computerlinguistik behielten die Rationalisten die Oberhand, nachdem Noam Chomsky 1957 dargelegt hatte, dass empirische Ansätze niemals den Unterschied zwischen dem grammatischen, aber sinnfreien Satz

Colorless green ideas sleep furiously.

und dem ungrammatischen Satz

Furiously sleep ideas green colorless.

erkennen könnten, denn keiner von beiden würde jemals beobachtet werden können. In der Folgezeit entwickelte die Computerlinguistik auschließlich regelbasierte Systeme; datenbasierte Ansätze waren verpönt.

Um 1990 aber schwang das Pendel in die andere Richtung: riesige Datenmengen (Texte in elektronischer Form) waren mittlerweile verfügbar, und die Computer hatten eine Leistungsfähigkeit erreicht, die die Anwendung statistischer Methoden auf diese Datenmengen gestattete. Bei der automatischen Erkennung gesprochener Sprache (Diktiersysteme) konnte mit den datenbasierten Methoden endlich der Durchbruch erzielt werden, an dem die regelbasierten Ansätze zuvor kläglich gescheitert waren.
Im Jahr 2000 demonstrierte Fernando Pereira ein System, das den Grammatikalitätsunterschied zwischen den beiden Beispielsätzen Chomskys erkennen konnte, allein aufgrund von aus Daten erhobenen Statistiken.

Zur Zeit erleben wir den Durchbruch datenbasierter Methoden auf einem weiteren Gebiet: der maschinellen Übersetzung. Das leistungsfähigste Übersetzungssystem (laut einer Evaluierung der NIST von 2005), das zudem die meisten Sprachpaare abdeckt, ist Google Translate. Es basiert auf der statistischen Analyse sehr großer Datenmengen: menschlicher Übersetzungen. Überhaupt entpuppt sich Google zunehmend als extremer Verfechter des empirischen Paradigmas. Pereira, der jetzt bei Google arbeitet, legt in dem Artikel The unreasonable effectiveness of data zusammen mit Googles Forschungschef Peter Norvig dar, wieso datenbasierte Verfahren regelbasierten prinzipiell überlegen seien.

Wenn einer Briefmarken sammelt, dann darf man ihm nicht damit kommen, dass Briefmarken so toll und interessant auch wieder nicht seien. Und was sammelt Google?

Ältere Artikel »

Blogverzeichnis - Blog Verzeichnis bloggerei.de   RSS-Feed   Blog von linguatools.de   Impressum   Powered by WordPress ( WordPress Deutschland )