Kontext-Wörterbuch - Suche in Millionen Beispielsätzen

DISCO - Beschreibung der Sprachdatenpakete und Download

English page    Zur DISCO-Hauptseite

Arabisch

Paketname: ar-general-20120124
Paketgröße: 518 Megabyte
Korpusgröße: 188 Mio. Token
Anzahl abfragbarer Wörter: 134.479
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 50.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)


Deutsch

Paketname: de-general-20131219-sim
Paketgröße: 2,2 Gigabyte
Korpusgröße: 977.330.652 Token
Anzahl abfragbarer Wörter: 246.119
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen von Stoppwörtern, Entfernen aller Wörter mit Frequenz < 100.

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Download und Installation:


Paketname: de-general-20080727
Paketgröße: 3,6 Gigabyte
Korpusgröße: 400 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)


Englisch

Paketname: enwiki-20130403-sim-lemma-mwl-lc
Paketgröße: 2,3 Gigabyte
Korpusgröße: 1.914.025.954 Token
Anzahl abfragbarer Wörter: 420.184 (inklusive Mehrwortlexeme wie take_off)
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen von Stoppwörtern, Entfernen aller Wörter mit Frequenz < 50, Lemmatisierung, Konvertierung aller Wörter im Korpus nach lower case, Identifizierung von Mehrwortlexemen (diese enthalten Unterstriche anstelle von Leerzeichen).

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998. Die Berechnung dauerte 11 Tage auf einem core-i3 und beanspruchte 368 Gigabyte Festplattenplatz.
Korpus:

Download und Installation:


Paketname: en-BNC-20080721
Paketgröße: 1,7 Gigabyte
Korpusgröße: 119 Mio. Token
Anzahl abfragbarer Wörter: 122.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:


Paketname: en-PubMedOA-20070903
Paketgröße: 864 Megabyte
Korpusgröße: 181 Mio. Token
Anzahl abfragbarer Wörter: 60.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:


Paketname: en-wikipedia-20080101
Paketgröße: 5,9 Gigabyte
Korpusgröße: 267 Mio. Token
Anzahl abfragbarer Wörter: 220.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:


Französisch

Paketname: fr-wikipedia-20110201-lemma
Paketgröße: 513 Megabyte
Korpusgröße: 458 Mio. Token
Anzahl abfragbarer Wörter: 154.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Lemmatisierung (mit Hilfe des Tree Taggers), Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.
Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Download und Installation:

Paketname: fr-wikipedia-20080713
Paketgröße: 2,4 Gigabyte
Korpusgröße: 105 Mio. Token
Anzahl abfragbarer Wörter: 188.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:

Download und Installation:


Italienisch

Paketname: it-general-20080815
Paketgröße: 2,3 Gigabyte
Korpusgröße: 104 Mio. Token
Anzahl abfragbarer Wörter: 164.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:

Download und Installation:


Niederländisch

Paketname: nl-general-20081004
Paketgröße: 4,0 Gigabyte
Korpusgröße: 114 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 10.
Korpus:

Download und Installation:


Tschechisch

Paketname: cz-general-20080115
Paketgröße: 5,6 Gigabyte
Korpusgröße: 163 Mio. Token
Anzahl abfragbarer Wörter: 320.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:


Spanisch

Paketname: es-general-20080720
Paketgröße: 5,0 Gigabyte
Korpusgröße: 232 Mio. Token
Anzahl abfragbarer Wörter: 260.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)


Russisch

Paketname: ru-wikipedia-20110804
Paketgröße: 544 Megabytes
Korpusgröße: 230 Mio. Token
Anzahl abfragbarer Wörter: 112.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 100.

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 15.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Download und Installation: