DISCO - Sprachdatenpakete

DISCO - Beschreibung der Sprachdatenpakete und Download

Arabisch

Paketname: ar-general-20120124
Paketgröße: 518 Megabyte
Korpusgröße: 188 Mio. Token
Anzahl abfragbarer Wörter: 134.479
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.

Stoppwortliste: stopword-list_ar_utf8.txt

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 50.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Arabische Wikipedia (XML-Dump von 20120114)
Ajdir Corpora (Online-Zeitungen)

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)

Laden Sie das Archiv ar-general-20120124.tar herunter und entpacken Sie es (geben Sie als Kennwort disco ein).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens ar-general-20120124 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)

Deutsch

Paketname: de-general-20131219-sim
Paketgröße: 2,2 Gigabyte
Korpusgröße: 977.330.652 Token
Anzahl abfragbarer Wörter: 246.119
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen von Stoppwörtern, Entfernen aller Wörter mit Frequenz < 100.

Stoppwortliste: stopword-list_de_utf8.txt

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

die Deutsche Wikipedia, Dump vom 12.12.2011 (569 Mio. Token)
Zeitungen und Zeitschriften (297 Mio. Token)
Parlamentsdebatten (64 Mio. Token)
Literatur (31 Mio. Token)
Untertitel von Filmen und Serien (14 Mio. Token)

Download und Installation:

Laden Sie das Archiv de-general-20131219-sim.tar.bz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens de-general-20131219-sim befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)

Paketname: de-general-20080727
Paketgröße: 3,6 Gigabyte
Korpusgröße: 400 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Enzyklopädie (273 Millionen Token)
Zeitung (48 Millionen Token)
Zeitschrift (32 Millionen Token)
Parlamentsdebatten (27 Millionen Token)
Literatur (20 Millionen Token)

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)

Laden Sie das Archiv de-general-20080727.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens de-general-20080727 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt:
_0.cfs (1903287123 Bytes) _1.cfs (1744490465 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Englisch

Paketname: enwiki-20130403-sim-lemma-mwl-lc
Paketgröße: 2,3 Gigabyte
Korpusgröße: 1.914.025.954 Token
Anzahl abfragbarer Wörter: 420.184 (inklusive Mehrwortlexeme wie take_off)
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen von Stoppwörtern, Entfernen aller Wörter mit Frequenz < 50, Lemmatisierung, Konvertierung aller Wörter im Korpus nach lower case, Identifizierung von Mehrwortlexemen (diese enthalten Unterstriche anstelle von Leerzeichen).

Liste aller Mehrwortlexeme mit ihrer Frequenz: enwiki-20130403-sim-lemma-mwl-lc_MWL.txt
Stoppwortliste: stopword-list_en_utf8.txt

die Englische Wikipedia (Dump vom 3. April 2013)

Download und Installation:

Laden Sie das Archiv enwiki-20130403-sim-lemma-mwl-lc.tar.bz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens enwiki-20130403-sim-lemma-mwl-lc befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)

Paketname: en-BNC-20080721
Paketgröße: 1,7 Gigabyte
Korpusgröße: 119 Mio. Token
Anzahl abfragbarer Wörter: 122.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

das British National Corpus (BNC)

Download und Installation:

Laden Sie das Archiv en-BNC-20080721.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens en-BNC-20080721 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichni-Inhalt:
_0.cfs(1815005661 Bytes) segments_3 (45 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Paketname: en-PubMedOA-20070903
Paketgröße: 864 Megabyte
Korpusgröße: 181 Mio. Token
Anzahl abfragbarer Wörter: 60.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

ca. 100.000 medizinische Fachartikel aus der PubMed Open Access Datenbank (Juli 2007).

Download und Installation:

Laden Sie das Archiv en-PubMedOA-20070903.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).

Paketname: en-wikipedia-20080101
Paketgröße: 5,9 Gigabyte
Korpusgröße: 267 Mio. Token
Anzahl abfragbarer Wörter: 220.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

ca. 300.000 Artikel der englischen Wikipedia vom Stand Januar 2008.

Download und Installation:

Laden Sie das Archiv en-wikipedia-20080101.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens en-wikipedia-20080101 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt
_0.cfs (1506801606 Bytes) _1.cfs (1694294790 Bytes) _2.cfs (1726672861 Bytes) _3.cfs (1327106259 Bytes) segments_2(120 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Französisch

Paketname: fr-wikipedia-20110201-lemma
Paketgröße: 513 Megabyte
Korpusgröße: 458 Mio. Token
Anzahl abfragbarer Wörter: 154.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Lemmatisierung (mit Hilfe des Tree Taggers), Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.
Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Französische Wikipedia (XML-Dump vom 1. Februar 2011)

Download und Installation:

Laden Sie das Archiv fr-wikipedia-20110201-lemma.tar herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens fr-wikipedia-20110201-lemma befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)

Paketname: fr-wikipedia-20080713
Paketgröße: 2,4 Gigabyte
Korpusgröße: 105 Mio. Token
Anzahl abfragbarer Wörter: 188.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:

Enzyklopädie

Download und Installation:

Laden Sie das Archiv fr-wikipedia-20080713.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens fr-wikipedia-20080713 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt_
_0.cfs (1269708232 Bytes) _1.cfs (1291676186 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Italienisch

Paketname: it-general-20080815
Paketgröße: 2,3 Gigabyte
Korpusgröße: 104 Mio. Token
Anzahl abfragbarer Wörter: 164.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:

Enzyklopädie (65 Mio. Token)
Parlamentsdebatten (39 Mio. Token)

Download und Installation:

Laden Sie das Archiv it-general-20080815.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens it-general-20080815 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt:
_0.cfs (900290978 Bytes) _1.cfs (1486761508 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Niederländisch

Paketname: nl-general-20081004
Paketgröße: 4,0 Gigabyte
Korpusgröße: 114 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 10.
Korpus:

Enzyklopädie (58,4 Mio. Token)
Parlamentsdebatten (37 Mio. Token)
Literatur (13 Mio. Token)
Zeitung, Radio (5,7 Mio. Token)

Download und Installation:

Laden Sie das Archiv nl-general-20081004.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens nl-general-20081004 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt:
_0.cfs (1582576570 Bytes) _1.cfs (1189383476 Bytes) _2.cfs(1505199527 Bytes) segments_2 (95 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Tschechisch

Paketname: cz-general-20080115
Paketgröße: 5,6 Gigabyte
Korpusgröße: 163 Mio. Token
Anzahl abfragbarer Wörter: 320.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Zeitungsartikel 1998-2008 (59,5 Mio. Token)
EU-Dokumente (59,0 Mio. Token)
Enzyklopädie Januar 2008 (34,9 Mio. Token)
Literatur 1850-2000 (10,4 Mio. Token)
Untertitel von Filmen und Fernsehserien (5,0 Mio. Token)

Download und Installation:

Laden Sie das Archiv cz-general-20080115.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens cz-general-20080115 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt:
_2.cfs (3766028482 Bytes) segments_7 (45 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Spanisch

Paketname: es-general-20080720
Paketgröße: 5,0 Gigabyte
Korpusgröße: 232 Mio. Token
Anzahl abfragbarer Wörter: 260.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:

Enzyklopädie Juli 2008 (184,6 Mio. Token)
Parlamentsdebatten (41,6 Mio. Token)
Literatur 1830-1930 (5,8 Mio. Token)

Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)

Laden Sie das Archiv es-general-20080720.tbz2 herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens es-general-20080720 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Verzeichnis-Inhalt:
_0.cfs (1766738706 Bytes) _1.cfs (1666434302 Bytes) _2.cfs(1842598324 Bytes) segments_2 (95 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!

Russisch

Paketname: ru-wikipedia-20110804
Paketgröße: 544 Megabytes
Korpusgröße: 230 Mio. Token
Anzahl abfragbarer Wörter: 112.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 100.

Stoppwortliste: stopword-list_ru_utf8.txt

Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 15.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:

Russische Wikipedia (XML vom 2011-03-28)

Download und Installation:

Laden Sie das Archiv ru-wikipedia-20110804.tar herunter und entpacken Sie es (Das Passwort lautet disco).
Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens ru-wikipedia-20110804 befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)