Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Erschließung: Eigennamenerkennung

Der DWDS-Eigennamenerkenner implementiert einen regelbasierten Finite-State-Ansatz und verwendet große lexikalische Ressourcen und eine handgeschriebene Grammatik. Die vom DWDS-Eigennamenerkenner erkannten Eigennamen und deren Eigennamenbezeichner (Anrede, Titel, Funktionen) werden in die Klassen Ortsname, Personenname und Organisationsname eingeordnet.

Als lexikalische Ressourcen verwendet der DWDS-Eigennamenerkenner die TAGH-Morphologie zusammen mit ihrer semantischen Nomenklassifizierung aus LexikoNet und Eigennamenlisten für die verschiedenen Eigennamenklassen.

Die Erstellung einer Eigennamengrammatik besteht aus zwei Teilen:

Um auch Eigennamen in einem unsicheren Kontext erkennen zu können, wird eine lemmabasierte Koreferenzauflösung verwendet. Auf diese Weise kann ein sicherer Eigennamenkontext einen unsicheren Kontext stützen, der den gleichen Eigennamen enthält.

Ziel des DWDS-Eigennamenerkenners ist es, eine möglichst hohe Genauigkeit (precision) zu gewährleisten. Der Eigennamenerkenner kann daher als Korrektiv für Ansätze verwendet werden, die einen möglichst große Erkennungsrate (recall) anstreben. 

In der gegenwärtigen Implementierung ist der DWDS-Eigennamenerkenner für Zeitungstexte optimiert. Im Rahmen des Projekts Deutsches Textarchiv wird der DWDS-Eigennamenerkenner derzeit für die Erkennung von Personen- und Ortsnamen in Texten des älteren Neuhochdeutsch angepasst. 

Literatur