16. März 2010

Daten oder Regeln?

Am Anfang der Aufklärung zweifelte Rene Descartes an allem, woran er zweifeln konnte, bis er schließlich in seinem Verstand etwas fand, an dem er nicht zweifeln konnte: sein Zweifeln. Er schloß: “Ich denke, also bin ich.” Der Mensch habe angeborene Ideen, die vor aller Erfahrung in seinem Verstand gegeben seien. Im Gegensatz dazu bestritt John Locke als Vertreter des Empirismus, dass der Mensch angeborene Ideen besitze: Bei der Geburt gleiche der Verstand einem unbeschriebenen Blatt. Alles Wissen entstamme Erfahrungsdaten: “Es ist nichts im Verstand, das nicht zuvor in den Sinnen gewesen ist.” Darauf entgegnete dann wieder der Rationalist Leibniz: “Ausgenommen der Verstand selbst” usw.

Dieser uralte philosophische Streit zwischen Empirismus und Rationalismus wird auch in der Computerlinguistik ausgefochten. Gibt es eine angeborene Universalgrammatik, die allen Sprachen zugrunde liegt, oder fangen die Kinder beim Spracherwerb bei Null an? Im letzteren Fall würden sie aus den Sprachdaten, die sie von ihren Eltern hören, eine Grammatik der jeweiligen Sprache extrahieren und könnten dann unendlich viele korrekte Sätze dieser Sprache bilden. Die Grammatik wäre also aus der Erfahrung, d.h. den Daten, lernbar. Für die Anhänger der Universalgrammatik dagegen sind Daten völlig uninteressant; die Grammatik ist ja im Kopf schon drin, unabhängig von irgendwelchen Daten. Sie lehnen es sogar ab, mit Hilfe von Daten, also beobachteten sprachlichen Äußerungen, Rückschlüsse auf die Grammatik im Kopf zu ziehen, denn die beobachteten Daten stecken voller Fehler: die Sprecher verhaspeln sich, versprechen sich, korrigieren sich, vertippen sich, sind unkonzentriert usw.

In der Computerlinguistik behielten die Rationalisten die Oberhand, nachdem Noam Chomsky 1957 dargelegt hatte, dass empirische Ansätze niemals den Unterschied zwischen dem grammatischen, aber sinnfreien Satz

Colorless green ideas sleep furiously.

und dem ungrammatischen Satz

Furiously sleep ideas green colorless.

erkennen könnten, denn keiner von beiden würde jemals beobachtet werden können. In der Folgezeit entwickelte die Computerlinguistik auschließlich regelbasierte Systeme; datenbasierte Ansätze waren verpönt.

Um 1990 aber schwang das Pendel in die andere Richtung: riesige Datenmengen (Texte in elektronischer Form) waren mittlerweile verfügbar, und die Computer hatten eine Leistungsfähigkeit erreicht, die die Anwendung statistischer Methoden auf diese Datenmengen gestattete. Bei der automatischen Erkennung gesprochener Sprache (Diktiersysteme) konnte mit den datenbasierten Methoden endlich der Durchbruch erzielt werden, an dem die regelbasierten Ansätze zuvor kläglich gescheitert waren.
Im Jahr 2000 demonstrierte Fernando Pereira ein System, das den Grammatikalitätsunterschied zwischen den beiden Beispielsätzen Chomskys erkennen konnte, allein aufgrund von aus Daten erhobenen Statistiken.

Zur Zeit erleben wir den Durchbruch datenbasierter Methoden auf einem weiteren Gebiet: der maschinellen Übersetzung. Das leistungsfähigste Übersetzungssystem (laut einer Evaluierung der NIST von 2005), das zudem die meisten Sprachpaare abdeckt, ist Google Translate. Es basiert auf der statistischen Analyse sehr großer Datenmengen: menschlicher Übersetzungen. Überhaupt entpuppt sich Google zunehmend als extremer Verfechter des empirischen Paradigmas. Pereira, der jetzt bei Google arbeitet, legt in dem Artikel The unreasonable effectiveness of data zusammen mit Googles Forschungschef Peter Norvig dar, wieso datenbasierte Verfahren regelbasierten prinzipiell überlegen seien.

Wenn einer Briefmarken sammelt, dann darf man ihm nicht damit kommen, dass Briefmarken so toll und interessant auch wieder nicht seien. Und was sammelt Google?

Blogverzeichnis - Blog Verzeichnis bloggerei.de   RSS-Feed   Blog von linguatools.de   Impressum   Powered by WordPress ( WordPress Deutschland )