DISCO - Beschreibung der Sprachdatenpakete und Download
English page Zur DISCO-Hauptseite
Arabisch
Paketname: ar-general-20120124
Paketgröße: 518 Megabyte
Korpusgröße: 188 Mio. Token
Anzahl abfragbarer Wörter: 134.479
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.
Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 50.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:
- Arabische Wikipedia (XML-Dump von 20120114)
- Ajdir Corpora (Online-Zeitungen)
Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)
- Laden Sie das Archiv ar-general-20120124.tar herunter und entpacken Sie es.
Deutsch
Paketname: de-general-20080727
Paketgröße: 3,6 Gigabyte
Korpusgröße: 400 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- Enzyklopädie (273 Millionen Token)
- Zeitung (48 Millionen Token)
- Zeitschrift (32 Millionen Token)
- Parlamentsdebatten (27 Millionen Token)
- Literatur (20 Millionen Token)
Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)
- Legen Sie auf der Festplatte ein Verzeichnis namens de-general-20080727 an.
- Laden Sie die folgenden vier Dateien in das neue Verzeichnis herunter:
_0.cfs (1903287123 Bytes) _1.cfs (1744490465 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Englisch
Paketname: enwiki-20130403-sim-lemma-mwl-lc
Paketgröße: 2,3 Gigabyte
Korpusgröße: 1.914.025.954 Token
Anzahl abfragbarer Wörter: 420.184 (inklusive Mehrwortlexeme wie take_off)
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen von Stoppwörtern, Lemmatisierung, Konvertierung aller Wörter im Korpus nach lower case, Identifizierung von Mehrwortlexemen (diese enthalten Unterstriche anstelle von Leerzeichen).
- Liste aller Mehrwortlexeme mit ihrer Frequenz: enwiki-20130403-sim-lemma-mwl-lc_MWL.txt
- Stoppwortliste: stopword-list_en_utf8.txt
Korpus:
- die Englische Wikipedia (Dump vom 3. April 2013)
Download und Installation:
- Laden Sie das Archiv enwiki-20130403-sim-lemma-mwl-lc.tar.bz2 herunter und entpacken Sie es (Benutzername und Passwort sind im Authentifizierungs-Fenster angegeben).
- Nachdem Sie das Archiv entpackt haben, sollte sich auf Ihrer Festplatte ein Verzeichnis namens enwiki-20130403-sim-lemma-mwl-lc befinden. Ändern Sie keinen der Dateinamen im Verzeichnis! (Sie können aber den Verzeichnisnamen ändern.)
Paketname: en-BNC-20080721
Paketgröße: 1,7 Gigabyte
Korpusgröße: 119 Mio. Token
Anzahl abfragbarer Wörter: 122.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- das British National Corpus (BNC)
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens en-BNC-20080721 an.
- Laden Sie folgende drei Dateien in das neue Verzeichnis herunter:
_0.cfs (1815005661 Bytes) segments_3 (45 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Paketname: en-PubMedOA-20070903
Paketgröße: 864 Megabyte
Korpusgröße: 181 Mio. Token
Anzahl abfragbarer Wörter: 60.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- ca. 100.000 medizinische Fachartikel aus der PubMed Open Access Datenbank (Juli 2007).
Download und Installation:
- Laden Sie das Archiv en-PubMedOA-20070903.tar herunter und entpacken Sie es.
Paketname: en-wikipedia-20080101
Paketgröße: 5,9 Gigabyte
Korpusgröße: 267 Mio. Token
Anzahl abfragbarer Wörter: 220.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- ca. 300.000 Artikel der englischen Wikipedia vom Stand Januar 2008.
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens en-wikipedia-20080101 an.
- Laden Sie folgende sechs Dateien in das neue Verzeichnis herunter:
_0.cfs (1506801606 Bytes) _1.cfs (1694294790 Bytes) _2.cfs (1726672861 Bytes) _3.cfs (1327106259 Bytes) segments_2 (120 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Französisch
Paketname: fr-wikipedia-20110201-lemma
Paketgröße: 513 Megabyte
Korpusgröße: 458 Mio. Token
Anzahl abfragbarer Wörter: 154.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Lemmatisierung (mit Hilfe des Tree Taggers), Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 50.
Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 30.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:
- Französische Wikipedia (XML-Dump vom 1. Februar 2011)
Download und Installation:
- Laden Sie das Archiv fr-wikipedia-20110201-lemma.tar herunter und entpacken Sie es.
Paketname: fr-wikipedia-20080713
Paketgröße: 2,4 Gigabyte
Korpusgröße: 105 Mio. Token
Anzahl abfragbarer Wörter: 188.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens fr-wikipedia-20080713 an.
- Laden Sie folgende vier Dateien in das neue Verzeichnis herunter:
_0.cfs (1269708232 Bytes) _1.cfs (1291676186 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Italienisch
Paketname: it-general-20080815
Paketgröße: 2,3 Gigabyte
Korpusgröße: 104 Mio. Token
Anzahl abfragbarer Wörter: 164.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 12.
Korpus:
- Enzyklopädie (65 Mio. Token)
- Parlamentsdebatten (39 Mio. Token)
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens it-general-20080815 an.
- Laden Sie folgende vier Dateien in das neue Verzeichnis herunter:
_0.cfs (900290978 Bytes) _1.cfs (1486761508 Bytes) segments_2 (70 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Niederländisch
Paketname: nl-general-20081004
Paketgröße: 4,0 Gigabyte
Korpusgröße: 114 Mio. Token
Anzahl abfragbarer Wörter: 200.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 10.
Korpus:
- Enzyklopädie (58,4 Mio. Token)
- Parlamentsdebatten (37 Mio. Token)
- Literatur (13 Mio. Token)
- Zeitung, Radio (5,7 Mio. Token)
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens nl-general-20081004 an.
- Laden Sie folgende fünf Dateien in das neue Verzeichnis herunter:
_0.cfs (1582576570 Bytes) _1.cfs (1189383476 Bytes) _2.cfs (1505199527 Bytes) segments_2 (95 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Tschechisch
Paketname: cz-general-20080115
Paketgröße: 5,6 Gigabyte
Korpusgröße: 163 Mio. Token
Anzahl abfragbarer Wörter: 320.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- Zeitungsartikel 1998-2008 (59,5 Mio. Token)
- EU-Dokumente (59,0 Mio. Token)
- Enzyklopädie Januar 2008 (34,9 Mio. Token)
- Literatur 1850-2000 (10,4 Mio. Token)
- Untertitel von Filmen und Fernsehserien (5,0 Mio. Token)
Download und Installation:
- Legen Sie auf der Festplatte ein Verzeichnis namens cz-general-20080115 an.
- Laden Sie folgende drei Dateien in das neue Verzeichnis herunter:
_2.cfs (3766028482 Bytes) segments_7 (45 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Spanisch
Paketname: es-general-20080720
Paketgröße: 5,0 Gigabyte
Korpusgröße: 232 Mio. Token
Anzahl abfragbarer Wörter: 260.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter.
Korpus:
- Enzyklopädie Juli 2008 (184,6 Mio. Token)
- Parlamentsdebatten (41,6 Mio. Token)
- Literatur 1830-1930 (5,8 Mio. Token)
Download und Installation:
Beachten Sie, dass die kommerzielle Verwendung dieses Sprachdatenpakets nicht gestattet ist! (Weitere Informationen hier.)
- Legen Sie auf der Festplatte ein Verzeichnis namens es-general-20080720 an.
- Laden Sie folgende drei Dateien in das neue Verzeichnis herunter:
_0.cfs (1766738706 Bytes) _1.cfs (1666434302 Bytes) _2.cfs (1842598324 Bytes) segments_2 (95 Bytes) segments.gen (20 Bytes)
Verändern Sie nicht die Namen der Dateien! Überprüfen Sie ob der Download vollständig war, indem Sie die Größenangaben in Klammern mit den Dateigrößen auf Ihrer Festplatte vergleichen!
Russisch
Paketname: ru-wikipedia-20110804
Paketgröße: 544 Megabytes
Korpusgröße: 230 Mio. Token
Anzahl abfragbarer Wörter: 112.000
Zeichenkodierung: UTF-8 (Unicode)
Korpusvorverarbeitung: Tokenisierung, keine Lemmatisierung, Entfernen der häufigsten Funktionswörter, Entfernen aller Wörter mit einer Häufigkeit kleiner als 100.
Parameter bei der Wortraum-Berechnung: Kontextfenster +-3 Wörter mit Beachtung der Position, 15.000 häufigste Lemmata als Merkmale, Signifikanzmaß aus Kolb 2009 mit Schwellwert 0,1, Ähnlichkeitsmaß aus Lin 1998.
Korpus:
- Russische Wikipedia (XML vom 2011-03-28)
Download und Installation:
- Laden Sie das Archiv ru-wikipedia-20110804.tar herunter und entpacken Sie es.
