DISCO - Download

DISCO ist Open Source und steht unter der Apache License, Version 2.0.

Sie benötigen das Java-Archiv disco-1.1.jar und ein Sprachdatenpaket aus der folgenden Tabelle. Folgen Sie den Links unter Paketname, um zu einer Paketbeschreibung und zum Download-Bereich zu gelangen.

Den DISCO-Quellcode können Sie hier herunterladen: disco-1.1-src.zip.

Sprache Paketname Korpusgröße Anzahl Wörter Größe
Deutsch de-general-20080727 400 Mio. Token 200.000 3,6 GB
Englisch en-BNC-20080721 119 Mio. Token 122.000 1,7 GB
en-PubMedOA-20070501 181 Mio. Token 60.000 864 MB
en-wikipedia-20080101 267 Mio. Token 220.000 5,9 GB
Französisch fr-wikipedia-20080713 105 Mio. Token 188.000 2,4 GB
Italienisch it-general-20080815 104 Mio. Token 164.000 2,3 GB
Niederländisch nl-general-20081004 114 Mio. Token 200.000 4,0 GB
Tschechisch cz-general-20080115 163 Mio. Token 300.000 5,6 GB
Spanisch es-general-20080720 232 Mio. Token 260.000 5,0 GB