Die Wortauswahl

Nach Abschluss der phomenischen Analyse hat der Computer eine vage Vorstellung von dem, was wirklich gesagt bzw. diktiert wurde. Für jedes Wort oder auch vermeintliches Wort behält der Computer zunächst mehrere Arbeitshypothesen im Speicher. Die unterschiedlichen Möglichkeiten können dabei mal mehr mal weniger stark voneinander abweichen. Wenn das Wort Magen gesagt wurde, kann es sein, dass der Computer dann als alternative Wortliste <man, mögen, Maden, Magens, nagen, lagen> auswählt. Wie man sieht können die Wortbedeutungen semantisch völlig differieren, oder aber auch nur eine andere grammatische Form des gemeinten Wortes repräsentieren. Wenn der Computer für jedes Wort nur 5 Alternativen im Speicher belässt, ergeben sich schon bei einem Satz mit 10 Wörtern unüberschaubar viele Möglichkeiten (knapp 10 Millionen). Die Auswahl der richtigen Wortfolge gleicht der Suche nach der Nadel im Heuhaufen. Wie schaffen es die Programme, trotzdem den richtigen oder fast richtigen Satz zu finden? Wie können sie unsinnige oder sinnfreie Sätze aus den Möglichkeiten ausschließen?

Eines ist klar: Die Computer verstehen nicht was wir sagen. Sie führen auch keine grammatische oder semantische Analyse unserer Sätze durch. Alle bisherigen Versuche, über eine solche Analyse zu einer guten Erkennungsgenauigkeit zu gelangen, sind wenig erfolgreich gewesen (vergl. auch das Verbmobil-Projekt). Das ist auch der Grund, weshalb Übersetzungsprogramme so schlecht funktionieren und in der Praxis schlicht unbrauchbar sind. Um die Riesenauswahl von Möglichkeiten auf eine Auswahl, die dann auf den Bildschirm gelangt, zu reduzieren, nutzt das Programm wiederum statistische Methoden. Im Sprachmodell des Spracherkenners ist hinterlegt, welche Wortkombinationen häufig vorkommen. Die Nachbarschaft eines Wortes bestimmt deshalb, welches Wort letztendlich ausgewählt wird. Wortkombinationen werden rein unter dem Gesichtspunkt der Häufigkeit des Auftretens ausgewählt. Phrasenhafte Formulierungen (z.B. in medizinischen oder juristischen Texten) werden deshalb besonders gut erkannt. Genutzt werden dabei Gruppen aus zwei oder drei Wörtern, die so genannten Bigramme und Trigramme. Die Bi- und Trigramme werden durch die Analyse von großen Textmengen gefunden. Ein Standard-Vokabular wird dabei auf einer breit gestreuten Basis von Texten beruhen, ein Fachvokabular baut im besten Falle ausschließlich auf Texten des Anwenders auf. Viele Formulierungen in Diktaten innerhalb eines Fachgebietes sind dann durch die Trigramm- und Bigrammstatistik abgesichert, so dass Erkennungsfehler minimiert werden.

Zukünftige Versionen von Spracherkennungsprogrammen werden sicherlich eine vertiefte grammatische Analyse von Wortfolgen bieten. Die Grammatik ist ja gerade im Deutschen wichtig für das Verständnis des Textes.