Kontext-Wörterbuch - Suche in Millionen Beispielsätzen

DISCO

English page

Was ist DISCO?
Anwendungen
Verfügbare Sprachen
Download und Installation
Aufruf über Kommandozeile
Java-API
Lizenzbedingungen
Danksagung

Siehe auch:
Download
Online Demos
DISCO-Plugin für den Protégé Ontologieeditor
FAQ
DISCO Whitepaper 

Was ist DISCO?

DISCO (extracting DIstributionally related words using CO-occurrences) ist eine Java-Klasse zur Abfrage der semantischen Ähnlichkeit zwischen Wörtern. Die Ähnlichkeiten basieren auf der statistischen Auswertung sehr großer Textmengen. Das Tool läuft auf allen gängigen Betriebssystemen, unter anderem Windows, Linux, Solaris und MacOS. Die Java-API stellt u.a. folgende Methoden zur Verfügung:

DISCO kann auch über die Kommandozeile abgefragt werden.

DISCO ist in folgenden Konferenzpapieren beschrieben:

Peter Kolb. Experiments on the difference between semantic similarity and relatedness. In Proceedings of the 17th Nordic Conference on Computational Linguistics - NODALIDA '09, Odense, Denmark, May 2009.

Peter Kolb. DISCO: A Multilingual Database of Distributionally Similar Words. In Tagungsband der 9. KONVENS, Berlin, 2008.

Anwendungen

Die Anwendungsmöglichkeiten der semantischen Ähnlichkeit nach DISCO sind äußerst vielfältig und erstrecken sich über alle Bereiche der Sprachtechnologie. Im folgenden sind einige Einsatzgebiete aufgeführt:

Verfügbare Sprachen

DISCO benötigt für jede Sprache einen Index mit Daten. Diese Sprachdaten werden auf der Grundlage sehr umfangreicher elektronischer Textsammlungen (Korpora) mittels statistischer Verfahren automatisch erstellt. Die Sprachdaten können hier heruntergeladen werden. Zur Zeit sind Daten für folgende Sprachen verfügbar:
     Deutsch    Englisch       Französisch    Italienisch    Niederländisch
Tschechisch    Spanisch

Download und Installation

Sie benötigen eine Java-Laufzeitumgebung. Sollte auf Ihrem Rechner kein Java installiert sein, können Sie es bei www.java.com herunterladen.

Aufruf über Kommandozeile

DISCO kann über die Kommandozeile abgefragt werden. Dazu geben Sie ein:
     java -jar disco-1.1.jar SPRACHDATENVERZEICHNIS OPTION
Die möglichen Optionen sind:
-bn WORT N: gibt die N semantisch ähnlichsten Wörter zu WORT aus. Beispiel: -bn Maus 10Tastatur Joystick Ratte Mäuse Trackball Mouse Micky Goofy Tasten Bildschirm.
-bc WORT N: gibt die N signifikantesten Kollokationen zu WORT aus. Beispiel: -bc Urteil 7BGH fällen vollstreckt BVerwG Verwaltungsgerichts lautete rechtskräftig.
-s WORT1 WORT2: gibt den Wert der semantischen Ähnlichkeit erster Ordnung zwischen den Eingabewörtern aus (Wert zwischen 0 und 1).
-s2 WORT1 WORT2: gibt den Wert der semantischen Ähnlichkeit zweiter Ordnung zwischen den Eingabewörtern aus (Wert zwischen 0 und 1).
-cc WORT1 WORT2: gibt den gemeinsamen Kontext der beiden Eingabewörter aus.
-f WORT: gibt die Korpushäufigkeit von WORT aus.
-n: gibt die Anzahl der abfragbaren Wörter aus.

Java-API

DISCO kann über eine Java-Schnittstelle (API) in eigene Anwendungen integriert werden. Die Java-API stellt verschiedene Methoden bereit, um semantisch ähnliche Wörter, semantische Wortähnlichkeiten, Kollokationen, Korpusfrequenzen usw. abzufragen. Eine Beschreibung finden Sie in der API-Dokumentation (javadoc).

Lizenzbedingungen

DISCO und alle hier verfügbaren DISCO-Sprachdatenpakete sind ab sofort unter der Apache License, Version 2.0 frei verfügbar und Open Source.

Auf Anfrage erstellen wir Sprachdatenpakete für die von Ihnen gewünschten Fachgebiete, Textsorten oder Sprachen. Bei Interesse kontaktieren Sie bitte Peter Kolb (peter.kolb@linguatools.org).

Danksagung

DISCO verwendet den Lucene-Index.
Die DISCO-Sprachdaten wurden teilweise auf der Grundlage von folgenden frei verfügbaren elektronischen Textsammlungen erstellt: