Zwischen Mensch und Computer bestehen gravierende Kommunikationsprobleme: während die Maschine nur spezielle Programmiersprachen beherrscht oder zumindest strukturierte Daten für die Verarbeitung benötigt, sprechen und verstehen Menschen „natürliche“ Sprache mit all ihren Ungenauigkeiten und Mehrdeutigkeiten.
Eine der Grundideen von Natural Language Processing (NLP) besteht daher darin, den Austausch zwischen beiden Seiten zu vereinfachen. Natural Language Processing ist ein Teilgebiet aus dem großen Feld Künstliche Intelligenz und stellt Technologien bereit, die Computern das Verstehen, Interpretieren und Erzeugen unstrukturierter menschlicher Sprache ermöglichen.
„Computer machen Sachen mit Sprache“ – so ließe sich Natural Language Processing umgangssprachlich definieren. Eine wissenschaftliche Definition des Begriffes Natural Language Processing stammt von der Informatikerin Elizabeth D. Liddy: „Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications.“
Die Anfänge von Natural Language Processing gehen zurück in die 1940er Jahre. Nach vielen Jahrzehnten nur langsamen Fortschrittes ist Natural Language Processing heute vor allem durch leistungsfähigere Hardware und Innovationen wie Maschinelles Lernen ein hochdynamisches Feld.
Der Aufschwung ist mit Sicherheit noch längst nicht am Ende angelangt, dennoch bildet natürliche Sprachverarbeitung schon heute die Grundlage einer Reihe von speziellen und alltäglichen Anwendungen:
Unabhängig davon, welche sprachlichen Inhalte ein Computer verarbeitet, muss er die einzelnen Teile unterscheiden und ihre Bedeutung erkennen, um das Ganze zu verstehen. Das theoretische Rüstzeug von Natural Language Processing liefert daher die Linguistik und hier vor allem die Computerlinguistik. Am anschaulichsten wird die Funktionsweise eines NLP-Systems, wenn man die einzelnen Phasen von Sprache und Sprachverarbeitung Schicht für Schicht unter die Lupe nimmt. Je nachdem, ob gesprochenes oder geschriebenes Wort verarbeitet wird, steht einer der folgenden Aspekte im Mittelpunkt.
Ein NLP-System, das gesprochene Eingaben aufnimmt, analysiert und kodiert die Schallwellen in ein digitalisiertes Signal und interpretiert die Daten anschließend nach verschiedenen Regeln oder durch Vergleich mit einem jeweils zugrundeliegenden Sprachmodell. Die linguistischen Teildisziplinen Phonologie und Phonetik bilden bei der Spracherkennung die theoretischen Grundlagen.
Egal, ob es sich um Input in Form einer Audio-Datei oder geschriebenen Text handelt: Um in späteren Schritten die Bedeutung einer Äußerung zu erkennen, muss ein Natural Language Processing-System die Eingabe in einzelne Bestandteile zerlegen.
Auf der Ebene von Sätzen und Phrasen, der Syntax, ermittelt Natural Language Processing die grammatikalische Struktur einer Äußerung. Unterhalb der Syntax bestimmen morphologische Verfahren einzelne Wörter und deren Einheiten. Ziel ist es hierbei, auf der lexikalischen Ebene die Bedeutung jedes einzelnen Begriffes zu verstehen und so die Voraussetzung für das Verständnis der gesamten Äußerung zu schaffen.
Im Zusammenspiel aus Informationen über Struktur eines Satzes und der Bedeutung einzelner Teile ergeben sich Hinweise auf die Bedeutung eines Satzes. Die einzelnen Teile in einen Kontext einordnen und so idealerweise mehrere Elemente einer zusammenhängenden Aussage korrekt zu verstehen, ist schließlich Aufgabe der Semantik.
Unterschiedliche, der Semantik zuzuordnende Verfahren können in einem Natural Language Processing-System einen Beitrag leisten bzw. Teilaspekte bedienen. Dazu zählen etwa die Entitätenextraktion (auch: Named Entity Recognition) die Sentimentanalyse oder die Disambiguierung.
Weil natürliche Sprachverarbeitung so vielschichtig ist, hat es sich etabliert, Anwendungen mit eng definiertem Fokus in einen von zwei anerkannten Bereichen einzuordnen. Als Teildisziplinen von Natural Language Processing gelten Natural Language Understanding (NLU) und Natural Language Generation (NLG).
Natural Language Understanding (NLU) konzentriert sich in erster Linie darauf, einer Maschine das Verständnis eines Textes oder von gesprochenem Wort zu ermöglichen. Analysiert etwa eine Anwendung den Newsbeitrag eines Online-Portals und identifiziert daraus mittels Entitätenextraktion Elemente wie Personen, Orte und Ereignisse handelt es sich dabei „nur“ um Natural Language Understanding. Sobald es darum gehen würde, auf einen identifizierten Inhalt zu reagieren, etwa in einem Chatbot, wird die Anwendung NLP.
Natural Language Generation hingegen bezeichnet die Produktion von Text durch einen Algorithmus. Voraussetzung dafür sind strukturierte Daten wie sie etwa in Form von Börseninformationen, Produktmerkmalen, Sport- oder Wetterdaten vorliegen. Automatische Textgenerierung macht daraus dann in Echtzeit und beliebiger Anzahl Inhalte. Da Natural Language Generation Daten zu Sprache verarbeitet, wird das Teilgebiet unter den Überbegriff Natural Language Processing gefasst.
Chatbots: Laut Gartner werden bis 2020 85 Prozent der Kundeninteraktionen ohne menschlichen Eingriff auskommen und komplett automatisiert sein. Und in der Tat werden bereits heute zahlreiche Kundenanfragen via Chatbots, die häufig auf Künstlicher Intelligenz basieren, bearbeitet. Sie verwenden Natural Language Processing – im engeren Sinne eine Kombination aus Natural Language Understanding und Natural Language Generation – um Anfragen zu verstehen und Ihre Fragen angemessen, automatisch und in Echtzeit zu beantworten.
Mailautomatisierung: Autokorrektur, Grammatik- und Rechtschreibprüfung sowie Autocomplete sind Funktionen, die durch NLP ermöglicht werden. Ebenso verwendet der Spamfilter in zahlreichen Email-Systemen Natural Language Processing, um festzustellen, welche Emails besser aussortiert werden sollten.
Sentiment Analyse: Natural Language Processing kann u.a. das Media Monitoring für Unternehmen durch sogenannte Sentiment Analyse verfeinern: Indem relevante Informationen aus Quellen wie Social Media oder News identifiziert und extrahiert und anschließend die Stimmung dieser Informationen bewertet werden, können Unternehmen kritische Kommunikation frühzeitig erkennen und gegebenenfalls entgegensteuern.
Natural Language Processing (Elizabeth D. Liddy, Syracuse University | PDF)
Natural Language Toolkit (NLTK.org)
The Fundamentals of Natural Language Processing and Natural Language Generation (Dataversity)
Was ist Natural Language Processing? (BigData Insider)
Your Guide to Natural Language Processing (NLP) (Towards data science)
5 Amazing Examples Of Natural Language Processing (NLP) In Practice (Forbes)