Entitätenextraktion

Automatische Texterstellung revolutioniert die Erstellung von Inhalten in immer mehr Bereichen. So setzen Nachrichten-Portale im Content-Mix zunehmend auf Roboterjournalismus. Online-Shops nutzen computergenerierte Texte zur Inszenierung von Produkten. Smarte Anwendungen kreieren automatisiert individuelle Reports wie Geschäftsberichte, Immobilien-Exposés oder Fondsreports.

Die Extraktion von Entitäten, auch bekannt als „Named entity extraction“ (NER) oder „Entitätenerkennung“, ist eine Technik zur Extraktion von Informationen aus einem unstrukturierten Text. Bei der Entitätenextraktion werden in einem Text Schlüsselelemente identifiziert sowie klassifiziert und vorab definierten Kategorien zugeordnet.

Ziel der Extraktion von Entitäten ist es, unstrukturierte Daten in strukturierte Daten umzuwandeln, also Informationen für eine weitere Verarbeitung maschinenlesbar zu machen. Named entity recognition ist eine Methode der Computerlinguistik und gehört zum Teilgebiet Natural Language Processing.

Entitäten in einem Text wie einem Beitrag auf der News-Seite eines Online-Portals sind in erster Linie: Personen(-namen), Organisationen, Produkte und Orte. Neben solchen Named entities verbergen sich in einem Text möglicherweise Phänomene wie medizinische Codes, Zeitangaben, Mengen, Prozentangaben oder Geldwerte.

Bei der Extraktion durchsucht ein Algorithmus Text, im Fall eines News-Beitrages eine HTML-Seite, und markiert die erkannten Entitäten. Diese automatische Erkennung von Entitäten erzielt in Sachtexten sehr hohe Trefferquoten. Auch wenn die Lösungen sprachliche Mehrdeutigkeiten nicht immer vollständig auflösen können („Entity linking“), liegen die Erfolgsquoten menschlicher Zuweiser im Vergleich nur wenige Prozent höher.

Wo wird Entitätenextraktion angewandt?

Named entity recognition kommt dort zum Einsatz, wo große Mengen an Inhalten aufbereitet werden. Nachrichtenmedien und Verlage etwa erzeugen täglich große Mengen an Online-Content. Zur Optimierung des Nutzererlebnisses einerseits und die Monetarisierung von Inhalten andererseits ist es zentral, die Informationen aus diesen Artikeln zu strukturieren.

Ein Algorithmus zur Entitätenextraktion kann automatisch ganze Artikel scannen und definieren, welche wichtigen Personen, Organisationen, Produkte, Orte oder allgemeine Schlagworte darin auftauchen. Sind diese Informationen extrahiert, hilft das bei der automatischen Kategorisierung der Artikel in definierten Hierarchien. Auf Basis dieser Informationen lassen sich Suchergebnisse präziser zusammenstellen, Inhalte zu thematischen Clustern kuratieren, dem User inhaltlich verwandte Beiträge anzeigen oder zielgerichtet Werbung ausspielen.

Neben dem Einsatz auf Nachrichtenportalen basieren auch die Empfehlungsfeatures von Mediendiensten auf Named entity recognition. Ein weiteres Anwendungsfeld abseits der Medienbranche wären etwa der Google Service Google AdSense oder die Sortierung von Supportanfragen per E-Mail bzw. Chat durch Entitätenextraktion.

Quellen & PDF:

Machine Learning for Named Entity Recognition (Günter Neumann & Feiyu Xu | LT-lab, DFKI, PDF)