Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Weitere Informationen:

TAGH-Homepage mit Online-Demo

Erschließung: Morphologische Analyse

1. Einführung
2. Technologie
3. Literatur

1. Einführung

Für die morphologische Annotierung der Korpustexte wird im DWDS-Projekt die TAGH-Morphologie von Thomas Hannforth und Alexander Geyken eingesetzt. TAGH ist ein Programm zur automatischen Analyse deutscher Wortformen. Ziel ist die Abbildung flektierter Formen auf deren Grundform(en) (Lemmatisierung) sowie die Angabe möglicher semantischer Lesarten (derzeit nur von Substantiven). Nicht im Lexikon enthaltene Wortformen werden von TAGH mit Wortbildungsregeln auf Lexikoneinträge abgebildet. Somit trägt TAGH der produktiven Wortbildung des Deutschen Rechnung. Die Erkennungsrate von TAGH bei neueren Zeitungstexten liegt bei über 99%.

2. Technologie

Das TAGH-Morphologiesystem lemmatisiert (d.h. führt die Wortformen auf Grundformen zurück) und zerlegt Wortformen auf der Grundlage gewichteter endlicher Transduktoren. Ein gewichteter Transduktor ist im Wesentlichen ein endlicher Automat, dessen Übergänge mit Symbolpaaren etikettiert sind. Zusätzlich können Endzustände und Übergänge mit numerischen Gewichten versehen sein, die bzgl. einer algebraischen Struktur (Minimum-Additions-Semiring) verarbeitet werden. Die Transduktoren sind auf der Basis der Potsdamer FST-Bibliothek realisiert (vgl. Hannforth 2004, 2009). Diese in C++ geschriebene Bibliothek implementiert etwa 30 Operationen der Automatenalgebra in effizienter Weise und erlaubt zudem eine kompakte Speicherung in verschiedenen Repräsentationsformaten.

Der TAGH-Morphologietransduktor weist derzeit 3,96 Mio Zustände und 6,75 Mio Übergänge auf und belegt als Datei ca. 32 MB Festplattenspeicher. Die Verarbeitungsgeschwindigkeit liegt - je nach Rechnerleistung - zwischen 30 000 und 50 000 Wörtern pro Sekunde.

Die Erkennungsrate des TAGH-Systems bei neueren Zeitungstexten (z.B. die ZEIT) liegt bei über 99,3%. Die Erkennungsrate für das DWDS-Kernkorpus liegt bei 98,3%.

Die lexikalische Komponente

Die Teillexika werden mit TAGH-FST-Compilern übersetzt und dann durch einige 100 algebraische Operationen in den endgültigen Transduktor überführt.

3. Literatur

Alexander Geyken, Thomas Hanneforth (2005). TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer, 55-66.

Thomas Hanneforth (2004). FSM<2.0> - C++ Library for Manipulating (Weighted) Finite Automata. URL.

Thomas Hanneforth (2009). fsm2 - A Scripting Language for Weighted Finite-State Automata. In: Proceedings of the Eighth International Workshop on Finite-State Methods and Natural Language Processing (FSMNLP).