Spracherkennung: Definition und Geschichte

Unter Spracherkennung wird die Fähigkeit einer Maschine oder eines Programms verstanden, gesprochene Wörter und Sätze zu identifizieren und in maschinenlesbare Informationen zu übersetzen. Als Technologie wird Spracherkennung (auch: Automatische Spracherkennung oder ASR) dem interdisziplinären Wissenschaftsgebiet der Computerlinguistik zugeordnet und greift damit auch auf Fachwissen aus den Bereichen Informatik, Linguistik und Elektrotechnik.

Während die ersten Spracherkennungssoftwares über ein recht begrenztes Vokabular an Wörtern und Sätzen verfügten, die in der Regel auch nur dann identifiziert werden konnten, wenn sie sehr deutlich gesprochen wurden, verfügt aktuell existierende Software über die Fähigkeit, natürliche Sprache im flüssigen Sprachstil treffsicher erkennen zu können. Spracherkennung kann damit die Funktion eines Interfaces zwischen Mensch und Maschine besitzen und bietet einen neuen Weg an, wie wir mit Technologie kommunizieren können.

Aus wissenschaftshistorischer Sicht hat die Spracherkennung eine lange Geschichte mit mehreren Wellen von bedeutenden Innovationen. Die frühen Anfänge der Entwicklung, die bereits in den 1950ern begonnen haben, erhielten in den 1970ern durch die Ambitionen der Darpa, ein Spracherkennungssystem mit einem Wortschatz von mindestens 1000 Wörtern zu entwickeln, neuen Auftrieb. Der erste signifikante Durchbruch erfolgte Mitte der 80er, als IBM unter dem Namen Tangora den ersten Echtzeitprototypen mit Erkennungsraten von rund 90 Prozent bei einem Vokabular von 5000 Wörtern der Öffentlichkeit vorstellte. Nachdem sich die Leistung der entwickelten Spracherkennungssysteme dann bis in die 2000er sukzessive steigerte – so mussten beispielsweise keine Pausen mehr hinter jedem gesprochenen Wort gemacht werden und Hintergrundgeräusche konnten allmählich herausgefiltert werden – konkurrieren inzwischen zahlreiche Systeme wie Siri, Alexa, Google Assistant, Microsoft und Cortana um die Gunst der Konsumenten.

In jüngster Zeit profitierte die Technologie insbesondere von Fortschritten beim Maschinellen Lernen und Deep Learning und durch die Verfügbarkeit von großen Datenmengen (Big Data). Entwicklungsförderlich waren zudem die großen Fortschritte im Bereich der Hardware, bei der Prozessoren signifikant schneller größere Datenmengen verarbeiten können. Auf diese Weise verfügen heutige Spracherkennungssysteme über eine sehr hohe Vokabulargröße, sind sprecherunabhängig – d.h. nicht auf nur eine individuelle Stimme trainiert – und verfügen über eine hohe Verarbeitungsgeschwindigkeit.

Wie funktioniert Spracherkennungssoftware?

Spracherkennung basiert auf den Methoden des Natural Language Processing, das sich mit der Verarbeitung von natürlichsprachigen Texten in geschriebener und gesprochener Form befasst.

Sprache besteht aus einer Aneinanderreihung von Toneinheiten. Die grundlegende Herausforderung der automatischen Spracherkennung besteht darin, diese Toneinheiten treffsicher zu identifizieren. Dazu wird ein gesprochenes Wort – ursprünglichen ein analoges Signal – in ein digitales Signal umgewandelt, bevor es in Frequenzen zerlegt und und in einem Schallbild, einem sogenannten Spektrogramm, abgebildet wird. Hier werden Elemente – beispielsweise Konsonanten und Vokale – analysiert bis ein komplettes Wort entsteht. Technisch betrachtet modellieren spezielle Algorithmen bei der Spracherkennung akustische und sprachliche Informationen. Während die akustische Modellierung die Beziehung zwischen linguistischen Einheiten von Sprache und akustischen Audiosignalen herstellt, gleicht die Sprachmodellierung Töne miteinander ab, um zwischen Wörtern zu unterscheiden, die ähnlich klingen.

Damit nun die Bedeutung einer Aussage verstanden werden kann, muss ein Natural Language Processing-System die Eingabe in einzelne grammatikalische und semantische Bestandteile zerlegen. Kombinierte Informationen über Struktur eines Satzes und der Bedeutung einzelner Teile lassen Rückschlüsse auf die Bedeutung eines Satzes zu. Bei kommen wichtige semantische Verfahren, z.B. die Entitätenextraktion (auch: Named Entity Recognition), die Sentimentanalyse oder die Disambiguierung zum Einsatz.

Die größten Fortschritte in der automatischen Spracherkennung sind neben der oben beschrieben Verfügbarkeit von Daten und der Verbesserungen im Hardwarebereich insbesondere den Fortschritten im Bereich des Machine Learnings und des Deep Learnings, Teilgebiete der Künstlichen Intelligenz, zu verdanken. So vermeldete 2017 Microsoft, dass ein entwickeltes Spracherkennungssystem human-parity, also den Gleichstand mit menschlichen Leistungen, erreichte: Der Computer konnte Sprache mit der gleichen Fehlerquote, der sogenannten Word-Error-Rate, in Höhe von 5,1 Prozent erkennen wie der Mensch.

Wo wird Spracherkennungssoftware bereits eingesetzt?

Im kommerziellen Kontext zählen zu den häufigsten Anwendungen der Spracherkennung die Sprachsteuerung bei Smartphones oder In-Car-Systemen, das Call-Routing, Speech-to-Text-Verarbeitung, Sprachwahl und die Sprachsuche. Vorteile der Spracherkennungssoftware liegen vor allem in ihrer einfachen und intuitiven Bedienung.

Zudem sind sie insbesondere in all jenen Bereichen von großer Relevanz, bei den konventionelle Interfaces, die manuell bedient werden müssen (Tastaturen, Tasten etc.) keinen Sinn machen, weil beispielsweise die Hände zum Bedienen von Maschinen oder Instrumenten genutzt werden müssen. Ein Nachteil von Spracherkennung besteht aktuell häufig in ihrer noch hohen Fehlerquote des Systems, weil Wörter bedingt durch Dialekte und Soziolekte häufig sehr unterschiedlich klingen. Auch Hintergrundgeräusche bei der Aufnahme können zu schlechteren Ergebnissen und Ungenauigkeiten führen.

Quellen & PDF:

How Google Is Using AI To Make Voice Recognition Work For People With Disabilities (Forbes)

Sie haben verstanden (Die Zeit)

Comparing Google's AI Speech Recognition To Human Captioning For Television News (Forbes)