Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Laufende Arbeiten

1. Neue Wörterbuchartikel für das DWDS-Wörterbuch
2. Aussprache
3. Rechtschreibung
4. Wortprofil
5. Extraktion guter Beispiele aus den Textkorpora
6. Kernkorpora des 20. und 21. Jahrhunderts

1. Neue Wörterbuchartikel für das DWDS-Wörterbuch

Das DWDS-Wörterbuch basiert in seiner Substanz auf dem Wörterbuch der deutschen Gegenwartssprache (WDG), welches zwischen 1962 und 1977 veröffentlicht wurde und daher in seinem Stichwortbestand teilweise veraltet ist. In der 2. Projektphase des DWDS-Projekts (2013-2018) soll der Stichwortbestand des WDG umfassend aktualisiert werden und in die DWDS-Wörterbuchdatenbank integriert werden. 

Grundlage für die Erstellung der Kandidatenliste für die Neuartikel (vgl. Geyken und Lemnitzer 2012) waren die in den DWDS-Korpora lexikografisch interessanten, hochfrequenten und über einen genügend langen Zeitraum belegten Lemmata, die nicht im WDG beschrieben sind. Darüber hinaus wurden sekundäre Quellen wie die Stichwortliste des Wiktionary einbezogen. Ergänzt wurde die Liste durch Stichwörter, die in den DWDS-Korpora weniger häufig vorkommen, aber in der Stichwortliste des Google-Books-Projekts (genauer: in den Unigram-Listen der Jahre 1980-2009) deutlich häufiger vorkommen. Von den ausgewählten insgesamt 47 000 Stichwörtern sollen etwa 25 000 zu Vollartikeln ausgebaut werden, die verbleibenden 22 000 sollen als sogenannte Kurzartikel in die DWDS-Wörterbuch-Datenbank integriert werden. Unter Vollartikeln sind dabei Artikel mit einer vollständig ausgebauten Bedeutungsstruktur, syntagmatischen sowie paradigmatischen als auch pragmatischen Angaben, typischen Belegen und darüber hinaus Angaben zur Form (Rechtschreibung, Grammatik) zu verstehen. Kurzartikel hingegen erhalten Angaben zur Form sowie eine Auswahl von typischen Belegen, die halbautomatisch durch ein statistisches Verfahren (dem "Gute-Belege-Extraktor") nach manueller Prüfung ausgewählt werden (Didakowski, Lemnitzer und Geyken 2012). Die manuelle Prüfung besteht darin, aus einer Auswahl von durchschnittlich 10-20 Belegen eines Stichwortes nach Lektüre des Belegs die geeigneten auszuwählen. Als geeignet gelten Belege, die die Definition des Wortes oder besonders typische Verwendungsweisen illustrieren. Da insgesamt hochgerechnet etwa 750.000 Belege gelesen werden müssen, wird die Integration der Kurzartikel mit den Beispielen die Projektgruppe längere Zeit in Anspruch nehmen. 

Es ist geplant, je nach Verfügbarkeit von lexikographischen Personalressourcen für diese Aufgabe, alle 47 000 Stichwörter als Kurzartikel Ende des 2. Quartals 2014 vorzulegen. Dafür sind folgende Arbeitsschritte vorgesehen:

Literatur

Alexander Geyken, Lothar Lemnitzer (2012): Using Google Books Unigrams to Improve the Update of Large Monolingual Reference Dictionaries. In: Proceedings EURALEX 2012, Oslo, S. 362-366. ISBN 978-82-303-2228-4.

Jörg Didakowski; Alexander Geyken and Lothar Lemnitzer (2012): Automatic example sentence extraction for a contemporary German dictionary. In: Proceedings EURALEX 2012, Oslo, S. 343-349. ISBN 978-82-303-2228-4.

2. Aussprache

In Zusammenarbeit mit dem Max-Planck-Institut für Psycholinguistik (MPI) in Nijmegen wird als Komponente des DWDS-Wörterbuchs ein umfassendes „gesprochenes Aussprachewörterbuch“ des Deutschen erstellt. Die Kernsubstanz des WDG (ca. 90 000 Einträge) liegt als Audioaufnahmen vor, es sind noch einzelne Korrekturen durchzuführen. Aus dem Lemmabestand für die Aktualisierung des Wörterbuches (s. oben) werden seit Juni 2012 10 000 weitere Stichwörter ausgewählt, im Studio gesprochen und in das DWDS-Wörterbuch integriert. Die Integration ist für Anfang 3. Quartal 2013 geplant.

... weitere Informationen

3. Rechtschreibung

Im mittlerweise abgeschlossenen ersten Arbeitsschritt wurden die aus dem WDG übernommenen Stichwörter und Artikelteile auf den Stand der seit August 2006 gültigen reformierten Rechtschreibung gebracht. Die Stichwörter wurden a) markiert, b) ihr Status (gültig/ungültig) gekennzeichnet und c) alle Varianten dieser Stichwörtern verzeichnet. Ferner wird bei jedem von der Rechtschreibreform betroffenen Stichwort und dessen Varianten auf den entsprechenden Paragrafen des amtlichen Regelwerk verwiesen. Zum Teil wurden im Zuge dieser Arbeiten neue Lesarten eingeführt. Die Angaben im Artikel selber, vor allem Definitionen und Kompetenzbeispiele, sind ebenfalls auf den neuesten Stand gebracht worden(Oktober 2012). Die Belege sind von der Rechtschreibreform nicht betroffen, da sie nach der Schreibung in den Originalquellen zitiert wurden.

Die Erfassung von Rechtschreibvarianten für die geplanten ca. 47.000 Neueinträge ist abgeschlossen. Der Verweis auf das Regelwerk erfolgt in all diesen Fällen. 

... weitere Informationen

4. Wortprofil

In der Wortprofil-Anwendung werden für die lexikografische Arbeit und für das Wortschatzlernen relevante kollokative Relationen extrahiert. Dies sind Verbindungen wie beispielsweise Adjektiv-Nomen (zündende Idee, ausgefallener Geschmack), Verb-Objekt (Idee umsetzen, Geschmack treffen), Präposition-Nomen-Verb (auf (den) Geschmack bringen), Nomen-Nomen-Koordinationen (Sinn und Bedeutung) oder Nomen-Präposition-Nomen (Sinn für Humor). Diese Wortpaare werden nach grammatischen Relationen gruppiert und zusammen mit den Fundstellen in den Korpora angezeigt.

Das Wortprofil wurde 2012 noch einmal gründlich überarbeitet. Es wurden:

Zurzeit wird vor allem die linguistische Vorverarbeitung der Korpora im Hinblick auf die statistische Auswertung der Relationen weiter optimiert.

...weitere Informationen

5. Extraktion guter Beispiele aus den Textkorpora

Lexikographische Beschreibungen sollten sich immer auf den tatsächlichen Sprachgebrauch beziehen, wie er in großen Textkorpora dokumentiert ist. Im Besonderen sollten Bedeutungsbeschreibungen durch Belege aus Korpora veranschaulicht werden. Für viele Stichwörter gibt es aber in unseren Korpora mehr Textbelege, als man in angemessener Zeit durchsehen kann. Viele dieser Belege sind für die Dokumentationsaufgabe auch nicht sonderlich gut geeignet.

Wir haben deshalb ein Programm entwickelt, mit dem für jedes Suchwort, für das ausreichend Belege vorhanden sind, die besten Belege ausgewählt und aufgrund ihrer Güte sortiert werden. In Zukunft werden ausgewählte Belege auch im DWDS-Wörterbuch angeboten - für die Einträge, für die es noch keine komplette lexikographische Beschreibung gibt (s. Abschnitt 1)

...weitere Informationen

6. Kernkorpora 20. und 21. Jahrhundert

Zur Zeit arbeiten wir an der Akquisition und Digitalisierung weiterer Texte aus der ersten Hälfte des 20. Jahrhunderts sowie von Gebrauchstexten aus den 70er bis 90er Jahren des 20. Jahrhunderts, um in einer neuen Version dieses Kernkorpus eine breitere Palette von Texten anbieten zu können.

Das Korpus für die erste Dekade des 21. Jahrhunderts wird momentan zusammengestellt. Derzeit kann bereits auf belletristische Texte, Texte journalistischer Prosa sowie einige Wissenschaftstexte  zugegriffen werden. Ab der zweiten Dekade werden wir außerdem einen angemessenen Anteil von Dokumenten zum schriftlichen Sprachgebrauch in Genres internetbasierter Kommunikation bereitstellen. Diese werden aktuell im Rahmen des Projekts DeRiK  erhoben und für die Integration in die Kernkorpora aufbereitet.

...weitere Informationen