Die Technologie der Spracherkennung

Sprache zu erkennen und zu verstehen ist für uns etwas völlig normales, so dass wir normalerweise keinen Gedanken an die Komplexität, die sich dahinter verbirgt, verschwenden. Die Entwicklung der automatischen Spracherkennung hat aber gerade wegen der Komplexität dieser scheinbaren Banalität über 20 Jahre gedauert. Erst mit der Entwicklung leistungsfähiger Prozessoren wurde die Spracherkennung als Produkt für den Consumer-Markt möglich, denn Spracherkennung erfordert einen großen und permanenten Rechenaufwand. Vom gesprochenen bis zum geschriebenen Wort durchlaufen die Bits und Bytes viele aufeinander aufbauende Analysen und Reanalysen. Am Ende steht mittlerweile in mehr als 95 % der Fälle das richtige Wort auf dem Bildschirm. Was passiert dabei im Computer im Einzelnen?

Zunächst wird die Sprache über ein Mikrofon in die Soundkarte des Computers eingespeist. Das Mikrofon wandelt dabei die Schwingungen der Luft in ein analoges elektrisches Signal um. Gute Mikrofone für die Spracherkennung filtern dabei schon unerwünschte Nebengeräusche heraus. Dabei werden ganz tiefe und ganz hohe Töne nicht berücksichtigt. Durch die Richtungscharakteristik des Mikrofons werden die Signale des Sprechers bevorzugt, durch die Verschaltung von mehreren Mikrofonen lassen sich auch gezielt Störgeräusche herausfiltern. Sehr moderne Desktop-Mikrofone sind sogar in der Lage, einen Sprecher, der sich bewegt zu verfolgen und den “Fokus” durch interne Analyse des Schallsignals auf den Sprecher zu richten.

In der Soundkarte wird das analoge elektrische Signal, das im Prinzip den gleichen Kurvenverlauf wie die Schalldruckkurve des Sprachsignals aufweist, digitalisiert. Dabei wird mit einer konstanten Frequenz und mit einer vorgegebenen Auflösung das Signal abgetastet. Dabei wird die glatte Kurve im Prinzip in eine treppenartige Kurve umgewandelt, bei der die Höhe der jeweiligen Treppenstufe durch eine Zahl ausgedrückt werden kann. Übliche Abtastfrequenzen für die Spracherkennung liegen bei 11 kHz. ViaVoice benutzt dabei als einziges Programm sogar 22 kHz als Sampling-Frequenz. Das Sprachsignal liegt jetzt digitalisiert vor, d.h. der Kurvenverlauf kann als eine Folge von Zahlen beschrieben werden. Und so gibt die Soundkarte die Information an den Prozessor

weiter.