Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Kernkorpus

1. Textsorten
2. Rechtevereinbarungen
3. Das Kernkorpus - Onlineversion
4. Einige Zahlen
5. Verteilung der Textwörter
6. Das 21. Jahrhundert

1. Textsorten

Die Auswahl der Texte wurde von der Arbeitsgruppe DWDS und Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften begleitet und begutachtet. Ziel war es, dem Ideal der Repräsentativität möglichst nahe zu kommen, und ein lexikographisches Korpus zusammenzustellen, das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand "deutscher Wortschatz des 20. Jahrhunderts" bewertet werden kann. Das DWDS-Kernkorpus ist folgendermaßen aufgeteilt:

2. Rechtevereinbarungen

Bereits frühzeitig hat das Projekt Nutzungsvereinbarungen mit Verlagen wie Aufbau, Diogenes Verlag, Eichborn, S. Fischer Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, K.G. Saur Verlag, Spiegel, Suhrkamp, Ullstein, ZEIT sowie öffentlichen und privaten Textgebern (z.B. Deutsches Rundfunkarchiv, Digitale Bibliothek) getroffen. Somit kann das Projekt z.B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die wortbezogene Internetrecherche zur Verfügung stellen.

3. Das Kernkorpus - Onlineversion

Die online verfügbare Version des Kernkorpus folgt weitestmöglich den oben genannten Verteilungen. Eine Ausnahme bildet die Textsorte gesprochene Sprache, die seit Oktober 2006 als eigenes Korpus verfügbar ist. Das Korpus ist je nach dem Stand der Texteinwerbungen Veränderungen unterworfen und wird daher versioniert. Die Änderungen verändern nicht die Korpusgröße als solche, sie stellen lediglich eine qualitative Veränderung dar.

4. Einige Zahlen

Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010
Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993
Anzahl verschiedener Wörter (Types): 2.224.542
Anzahl Dokumente: 79.830

5.Verteilung der Textwörter

Die geplante Verteilung nach Textsorten:

21.05% für Gebrauchsliteratur
28.42% für Belletristik
23.15% für Wissenschaft
27.36% für Zeitung

Die tatsächliche Verteilung weicht von der "idealen" Verteilung ab (Toleranzabweichung von 12,5%), da derzeit noch 3 Dekaden deutlich unter den geplanten Größen liegen. Dies sind die Dekaden 7 und 8 der Gebrauchsliteratur sowie die 9. Dekade in der Textsorte Belletristik. Zurzeit werden Texte, die die Textsortenlücken in diesen Dekaden schließen, akquiriert und digitalisiert.

Momentanes Profil des Textkorpus nach Dekaden und Textsorten:

Textsorte Dekade (20. Jh) Anzahl fortlaufender Textwörter Anzahl Sätze
Belletristik 1 2542807 160449
Belletristik 2 3259726 209889
Belletristik 3 3212220 203451
Belletristik 4 3261446 229153
Belletristik 5 2078014 136099
Belletristik 6 3234186 208765
Belletristik 7 2227026 150031
Belletristik 8 2391338 175098
Belletristik 9 2023919 135120
Belletristik 10 2332459 165957
Gebrauchsliteratur 1 2286829 130302
Gebrauchsliteratur 2 2421260 128001
Gebrauchsliteratur 3 2438427 123585
Gebrauchsliteratur 4 2151094 131428
Gebrauchsliteratur 5 2442199 149936
Gebrauchsliteratur 6 2402293 129549
Gebrauchsliteratur 7 1292670 70490
Gebrauchsliteratur 8 1363232 67171
Gebrauchsliteratur 9 2419838 114174
Gebrauchsliteratur 10 2414668 106748
Wissenschaft 1 2374435 90165
Wissenschaft 2 2725471 102690
Wissenschaft 3 2444098 91386
Wissenschaft 4 2550222 95829
Wissenschaft 5 2147141 96119
Wissenschaft 6 2596157 97605
Wissenschaft 7 2390911 103428
Wissenschaft 8 2371863 98768
Wissenschaft 9 2399778 106719
Wissenschaft 10 2371571 110214
Zeitung 1 2346961 109118
Zeitung 2 2546206 125592
Zeitung 3 3139119 157165
Zeitung 4 3138888 153293
Zeitung 5 2842066 138536
Zeitung 6 2804838 105419
Zeitung 7 2803179 103420
Zeitung 8 2802643 92251
Zeitung 9 2804187 125624
Zeitung 10 2805608 142591

Die Einteilung in Dekaden folgt nicht der kalendarischen Definiton, sondern der umgangssprachlich gebräuchlichen. Die erste Dekade umfasst also Dokumente vom 01.01.1900 bis zum 31.12.1909.

6. Das 21. Jahrhundert

Das langfristige Ziel ist es, ein Kernkorpus 21 aufzubauen, welches in Größe und Zusammensetzung dem Kernkorpus 20 entspricht. Aufgrund von urheberrechtlichen Schwierigkeiten konnten bislang nur für eine kleine Zahl von Büchern die Rechte für eine Integration in das Kernkorpus erworben und damit digitalisiert bzw. konvertiert und für die Recherche indexiert werden. Diese als "Panel Kernkorpus 21" bereitgestellte Auswahl ist daher leider nicht ausgewogen. Insbesondere enthält sie keine Zeitungstexte, nur wenig wissenschaftliche Prosa und keine Gebrauchstexte.

Die bislang digitalisierten bzw. konvertierten und indexierten Texte
sollen den Nutzern des DWDS aber schon jetzt zur Verfügung gestellt werden, da sie auch jetzt schon eine Reihe sehr namhafter Autoren umfassen. Bei den Werken handelt es sich dabei um jeweils 3-5 Werke der folgenden Verlage: Berlin Verlag, Oetinger, Siedler, Hanser, DuMont, Diogenes, Eichborn und Beltz & Gelberg, DVA und BvT.

  Tokens (mit Satzz.) Tokens (ohne Satzz.) Sätze
Wissenschaft 176341 152587 5463
Belletristik 1635902 1348257 107220
Gesamt 1812243 1500844 112683

Werkliste Kernkorpus 21:

Urs Widmer, Das Buch des Vaters, Zürich: Diogenes 2004


Martin Suter, Lila, Lila, Zürich: Diogenes 2004

Wolf Wondratschek, Mozarts Friseur, München, Wien: Carl Hanser Verlag 2002

Günter de Bruyn, Unter den Linden, Berlin: Siedler 2002
 
Franz Schuh, Schreibkräfte, Köln: DuMont 2000

Elke Schmitter, Frau Sartoris, Berlin: BvT 2000[2002]

Frank Goosen, Liegen lernen, Frankfurt am Main: Eichborn AG 2000
 
Lothar Gall, Krupp, Berlin: Siedler 2000
 
Cornelia Funke, Tintenherz, Hamburg: Cecilie Dressler Verlag 2003
 
Julia Franck, Lagerfeuer, Köln: DuMont Literatur und Kunst Verlag 2003
 
Herta Müller, Der König verneigt sich und tötet, München: Carl Hanser Verlag 2003

Kirsten Boie, Skogland, Ort: Hamburg 2005
 
Wilhelm Genazino, Die Liebesblödigkeit, München, Wien: Carl Hanser Verlag 2005

Hans-Peter Schwarz, Anmerkungen zu Adenauer, München: Deutsche Verlags-Anstalt 2004

Ingo Schulze, Neue Leben, Berlin: Berlin Verlag 2005

Jakob Arjouni, Chez Max, Zürich: Diogenes 2006

Ingrid Noll, Ladylike, Zürich: Diogenes 2006

Wolf Lepenies, Kultur und Politik, München, Wien: Carl Hanser Verlag 2006

Sven Regener, Herr Lehmann, Berlin: Eichborn Verlag 2001

Richard von Weizsäcker, Dreimal Stunde Null? 1949 1969 1989, Berlin: Siedler Verlag 2001

de Bruyn, Preußens Luise, Siedler 2001