DISCO - Download

Die DISCO-API ist Open Source und steht unter der Apache License, Version 2.0. Einige der Sprachdatenpakete sind ebenfalls frei verfügbar (siehe unten die Angabe in der Tabelle).

Neu: Mit der Version 1.2 der DISCO-API ist es möglich, ein Sprachdatenpaket (Wortraum) in den Hauptspeicher zu laden (ausreichend RAM vorausgesetzt), was die Abfragegeschwindigkeit stark verkürzt. Siehe javadoc.

Sie benötigen das Java-Archiv disco-1.2.jar und ein Sprachdatenpaket aus der Tabelle unten. Folgen Sie den Links unter Paketname, um zu einer Paketbeschreibung und zum Download-Bereich zu gelangen.

Weitere Downloads:

Alte API-Version 1.1:

Sprache Paketname Korpusgröße Anzahl Wörter Größe Lizenz
Arabisch ar-general-20120124 188 Mio. Token 134.479 518 MB keine kommerzielle Verwendung!
Deutsch de-general-20080727 400 Mio. Token 200.000 3,6 GB keine kommerzielle Verwendung!
Englisch en-BNC-20080721 119 Mio. Token 122.000 1,7 GB Apache 2.0
en-PubMedOA-20070501 181 Mio. Token 60.000 864 MB Apache 2.0
en-wikipedia-20080101 267 Mio. Token 220.000 5,9 GB Apache 2.0
Französisch fr-wikipedia-20110201-lemma 458 Mio. Token 154.000 513 MB Apache 2.0
fr-wikipedia-20080713 105 Mio. Token 188.000 2,4 GB Apache 2.0
Italienisch it-general-20080815 104 Mio. Token 164.000 2,3 GB Apache 2.0
Niederländisch nl-general-20081004 114 Mio. Token 200.000 4,0 GB Apache 2.0
Russisch ru-wikipedia-20110804 230 Mio. Token 112.000 544 MB Apache 2.0
Spanisch es-general-20080720 232 Mio. Token 260.000 5,0 GB keine kommerzielle Verwendung!
Tschechisch cz-general-20080115 163 Mio. Token 300.000 5,6 GB Apache 2.0