DISCO - Download
Die DISCO-API ist Open Source und steht unter der Apache License, Version 2.0. Einige der Sprachdatenpakete sind ebenfalls frei verfügbar (siehe unten die Angabe in der Tabelle).
Neu: Mit der Version 1.2 der DISCO-API ist es möglich, ein Sprachdatenpaket (Wortraum) in den Hauptspeicher zu laden (ausreichend RAM vorausgesetzt), was die Abfragegeschwindigkeit stark verkürzt. Siehe javadoc.
Sie benötigen das Java-Archiv disco-1.2.jar und ein Sprachdatenpaket aus der Tabelle unten. Folgen Sie den Links unter Paketname, um zu einer Paketbeschreibung und zum Download-Bereich zu gelangen.
Weitere Downloads:
|
Alte API-Version 1.1:
|
| Sprache | Paketname | Korpusgröße | Anzahl Wörter | Größe | Lizenz |
| Arabisch | ar-general-20120124 | 188 Mio. Token | 134.479 | 518 MB | keine kommerzielle Verwendung! |
| Deutsch | de-general-20080727 | 400 Mio. Token | 200.000 | 3,6 GB | keine kommerzielle Verwendung! |
| Englisch | en-BNC-20080721 | 119 Mio. Token | 122.000 | 1,7 GB | Apache 2.0 |
| en-PubMedOA-20070501 | 181 Mio. Token | 60.000 | 864 MB | Apache 2.0 | |
| en-wikipedia-20080101 | 267 Mio. Token | 220.000 | 5,9 GB | Apache 2.0 | |
| Französisch | fr-wikipedia-20110201-lemma | 458 Mio. Token | 154.000 | 513 MB | Apache 2.0 |
| fr-wikipedia-20080713 | 105 Mio. Token | 188.000 | 2,4 GB | Apache 2.0 | |
| Italienisch | it-general-20080815 | 104 Mio. Token | 164.000 | 2,3 GB | Apache 2.0 |
| Niederländisch | nl-general-20081004 | 114 Mio. Token | 200.000 | 4,0 GB | Apache 2.0 |
| Russisch | ru-wikipedia-20110804 | 230 Mio. Token | 112.000 | 544 MB | Apache 2.0 |
| Spanisch | es-general-20080720 | 232 Mio. Token | 260.000 | 5,0 GB | keine kommerzielle Verwendung! |
| Tschechisch | cz-general-20080115 | 163 Mio. Token | 300.000 | 5,6 GB | Apache 2.0 |

