Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Projekthintergrund

1. Überblick
2. Ziele
3. Grundlage
4. Computerlinguistische Erschließung und Anreicherung der Korpora
5. Webpräsenz
6. Laufende Arbeiten an den Wörterbüchern

1. Überblick

Ziel des an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimateten Vorhabens ist die Schaffung eines „Digitalen Lexikalischen Systems“ - eines umfassenden, jedem Benutzer über das Internet zugänglichen Wortinformationssystems, das Auskunft über den deutschen Wortschatz in Vergangenheit und Gegenwart gibt. Dazu wird eine Benutzeroberfläche geschaffen, die zum einen als Rechercheumgebung eines lexikographischen Arbeitsplatzes für die wissenschaftliche Analyse des deutschen Wortschatzes fungiert, zum anderen aber jedem Interessierten viele Suchmöglichkeiten eröffnet.

2. Ziele

Das Vorhaben hat zwei Hauptziele, die eng miteinander zusammenhängen:

  1. Es soll das verfügbare lexikalische Wissen, wie es in den bisherigen großen Wörterbüchern seinen Niederschlag gefunden hat, zusammenführen und auf den neuesten Stand bringen.
  2. Es soll ein Digitales Lexikalisches System entwickeln, das
    • Belege für die möglichen Verwendungen eines Wortes - aus gut erschlossenen Korpora - und eine wissenschaftlich verlässliche Beschreibung der verschiedenen Eigenschaften dieses Wortes miteinander verbindet,
    • sich jederzeit flexibel erweitern und korrigieren lässt, und
    • für viele - wissenschaftliche wie nichtwissenschaftliche - Zwecke nutzbar ist.

3. Grundlage

Wichtigster Ausgangspunkt sind die an der Berlin-Brandenburgischen Akademie der Wissenschaften (bzw. ihren Vorgängereinrichtungen) erarbeiteten Wörterbücher und Korpora.

Wörterbücher

  1. Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm (1DWB) sowie dessen Neubearbeitung (2DWB). Das 1DWB, von 1854 - 1960 in 32 Bänden veröffentlicht, umfasst etwa 330 000 Stichwörter. Eine digitale Version wurde am Trierer Kompetenzzentrum erstellt und steht dort sowie auch auf der DWDS-Plattform als Wörterbuchpanel zur Abfrage zur Verfügung. Die Neubearbeitung der Buchstaben A-F, vor fast fünfzig Jahren gemeinsam von der Göttinger und der Berliner Akademie begonnen, soll im Jahre 2013 abgeschlossen werden.
  2. Wörterbuch der deutschen Gegenwartssprache (WDG).
  3. Etymologisches Wörterbuch des Deutschen (EtymWB). Das Etymologische Wörterbuch wurde an der Akademie der Wissenschaften der DDR von einer Arbeitsgruppe unter Leitung von Wolfgang Pfeifer erstellt und 1989 in drei Bänden veröffentlicht. Im Jahre 1993 erschien eine Neubearbeitung, deren Digitalisierung abgeschlossen ist.

Textkorpora

Das DWDS-Korpus wurde mit Unterstützung der Deutschen Forschungsgemeinschaft in den Jahren 2000-2003 erstellt; seither wird es kontinuierlich ausgebaut. Es setzt sich aus drei Bestandteilen zusammen: dem nach Textsorten ausgewogenen, öffentlich recherchierbaren Kernkorpus des 20. Jahrhunderts sowie einem im Aufbau befindlichen Kernkorpus des 21. Jahrhunderts, dem im Wesentlichen aus neueren Zeitungsquellen gespeisten nur in Teilen öffentlich verfügbaren Ergänzungskorpus sowie aus verschiedenen Spezialkorpora.

4. Computerlinguistische Erschließung und Anreicherung der Korpora

Alle Korpora sind gemäß den Standards der „Text Encoding Initiative“ kodiert (xml/TEI-P5). Dies betrifft sowohl die Metadaten als auch das strukturelle Markup der Texte. Die Kodierung auf Zeichenebene erfolgt in UNICODE (=UTF-8).

Darüber hinaus wurden die Texte mit gängigen Methoden der Computerlinguistik linguistisch vorannotiert. Dies betrifft die Zerlegung der Texte in Sätze, der Sätze in Wörter (Tokens) sowie die morphologische Analyse der Tokens und deren Zuordnung zu einer Wortart (Part-of-Speech Tagging). Dadurch ist es beispielsweise möglich, die Vorkommen von modern - als Adjektiv oder Verb - und von aber - als Konjunktion oder Adverb - bei der Suche zu unterscheiden. Die Arbeiten zur linguistischen Erschließung der Texte haben darüber hinaus zur Entwicklung einer linguistischen Suchmaschine geführt, die mittlerweile frei verfügbar ist und auch über das DWDS hinaus im wissenschaftlichen Kontext (C4-Korpus) eingesetzt wird.

5. Webpräsenz

Seit Mitte 2004 sind die im Digitalen Lexikalischen System integrierten Daten (Wörterbücher, Korpora, statistische Daten) über eine Webseite verfügbar. Die Webseite wird von etwa 32.000 registrierten Benutzern aus ca. 150 Ländern verwendet (Stand Oktober 2012) und von vielen weiteren, nicht registrierten Benutzern besucht. Sie wird ständig weiterentwickelt. Über Neuerungen auf der Webseite informieren wir Sie unter "Aktuelles" und auf Twitter unter dem Namen 'dwds_de'.

6. Laufende Arbeiten an den Wörterbüchern

Als Ausgangsbasis des zukünftigen elektronischen Wörterbuchsystems wurde das zwischen 1962 und 1977 an der Akademie der Wissenschaften erarbeitete sechsbändige Wörterbuch der deutschen Gegenwartssprache (WDG) digitalisiert, strukturiert und als Wissensbasis aufbereitet.

Seit 2010 werden alle lexikografischen Bearbeitungen des DWDS-Projekts am WDG in einer vom elektronischen WDG getrennten Datenbank gepflegt und unter dem Namen DWDS-Wörterbuch als eigenes Panel veröffentlicht. Damit wird einerseits der Tatsache Rechnung getragen, dass das WDG als Original erhalten und abfragbar bleibt, andererseits aber auch dem Wunsch entsprochen, den Nutzern der DWDS-Webseite auch schon vor der grundlegenden Überarbeitung der semantischen Substanz des WDG (diese wird in der 2. Phase des DWDS-Projekts stattfinden) eine in wichtigen lexikografischen Aspekten aktualisierte Fassung zu präsentieren. Weitere Informationen hierzu unter http://www.dwds.de/ressourcen/woerterbuecher/

Über die Arbeiten am DWDS-Wörterbuch hinaus werden die digitalen Versionen der beiden anderen oben genannten Wörterbücher aufbereitet und in die DWDS-Webseite integriert. Die Arbeiten am Etymologischen Wörterbuch des Deutschen sind abgeschlossen, dieses Werk ist nunmehr in die DWDS-Webseite integriert, die erste Auflage des Deutschen Wörterbuchs wird in Kürze in die Webseite integriert.

Unter dem Stichwort 'Wort der Woche' stellt die Redaktion des DWDS Ihnen im Schnitt einmal wöchentlich ein neues Wort vor (mit Definition und Belegen), das uns in der Tagespresse als neues und interessantes Wort aufgefallen ist.