Mein Hund versteht mich — Spracherkennung am heimischen PC

Mein Hund versteht mich — Spracherkennung am heimischen PC

Da sitzt der Hund vorm Grammophon und lauscht den Wohlklängen aus dem Trichter. Mit diesem Label macht eine bekannte Schallplattenfirma unmissverständlich klar, wie sie sich ihre Kundschaft wünscht: ‚hörig‘. Ähnlich dienstbar wie Hund und Kundschaft mag auch ein Computer sein, der aufs Wort gehorcht. Und so bewirbt ihn die Software-Industrie als folgsam. Tatsächlich ist der heimische PC jedoch ein armer Hund, der zwar manches ganz gut errät, aber nichts wirklich versteht. Dennoch wird die Spracheingabe unablässig als Mittel der Wahl propagiert.

Bekanntschaft mit dem Mikrophon

Während die Forschung neben sprecherabhängigen Spracherkennungssystemen auch an sprecherunabhängigen arbeitet, steht für private Zwecke naturgemäß die sprecherabhängige Variante im Vordergrund. Diese setzt allerdings ein gewisses Training voraus, d. h. Sie müssen das System mit Ihrer Stimme und Ihrem Tonfall vertraut machen. Aber schon die Kalibrierung des Mikrophons — eine Sprechgarnitur wird üblicherweise mitgeliefert — ist keine leichte Sache, muss man doch zwischen Über- und Untersteuerung lavieren, ohne freilich kontrollieren zu können, wie sich die Eingaben tatsächlich anhören.

Beim Diktat hingegen können Sie das Gesprochene wiedergeben. Dabei stellt sich heraus, dass das Mikrophon störende Atemgeräusche als Übersteuerungen rezipiert, was die Erkennung des gesprochenen Textes erschwert. Andererseits können Sie das Mikrophon aber nicht wegrücken, weil sofort ein zu niedriger Pegel moniert wird.

Wie sag ich´s meinem PC?

Bei der 'Erstregistrierung' fordert Ihnen z. B. IBMs Programm ViaVoice 256 gesprochene Beispielsätze ab. Das dauert seine Zeit, zumal immer wieder nachkalibriert werden muss. Schon bei Satz Nummer 128 sind Sie erschöpft, nahezu heiser. Denn schließlich reden wir hier ja nicht über belangloses Plappern, sondern über diszipliniertes Sprechen, das sich sinnigerweise am Hochdeutsch-Ideal orientiert und dem System als Maßstab dienen soll. Jedenfalls kommen Sie mit sich überein, die verbleibenden Sätze vorzugsweise ein andermal zu absolvieren.

In der 'Executive'-Version verfügt ViaVoice über einen Grundwortschatz von 64.000 Wörtern, der um weitere 64.000 individuell erweitert werden kann. Eine elegante Möglichkeit der Wortschatzerweiterung ist das Einbringen beliebiger digitaler Texte, die vom Programm auf unbekannte Wörter hin durchsucht werden. Diese wiederum werden zwecks Vorsprechen aufgelistet. Aber geben Sie sich keinen falschen Hoffnungen hin: In einem Alltagstext von etwa 400 KB findet ViaVoice ohne weiteres über 6000 unbekannte Wörter. Kasus-Endungen beispielsweise werden als Indiz für neue, eigenständige Wörter gewertet und können nicht automatisch abgeleitet oder zugeordnet werden. Das Programm stößt offensichtlich an Grenzen. Und da Sie dank mannigfacher Kasus-Endungen im Nu eine beträchtliche Anzahl an Wörtern beisammen haben, werden Sie sich sehr genau überlegen, ob Sie z. B. auch Eigennamen ins Wörterbuch aufnehmen — falls sie dafür noch Platz haben —, oder sie lieber nachträglich von Hand in Ihre Texte einfügen. Das macht freilich zusätzliche Arbeit.

Welche Wörter Sie auch immer für wert befinden, sie müssen trainiert, d. h. dem PC vorgesprochen werden. Diesbezüglich fehlt es der Vokabel-Erweiterung allerdings an der nötigen Konsequenz; sie lässt nicht zuverlässig erkennen, welche der aufgenommenen Wörter bereits trainiert sind und welche nicht. Wenn Sie z. B. eine ganze Wortliste markieren und übernehmen, kennzeichnet das Programm die Wörter kurzerhand als schon diktiert.

Grammatik der Missverständnisse

In der Diktatarbeit zeigen sich weitere Mängel. So findet keine Grammatikprüfung statt, d. h. bei Plausibilitätskontrollen wird bedenkenlos außer Acht gelassen, dass etwa eine Adjektiv-Beugung kongruent zum Substantiv sein muss, oder dass das Verb den Kasus regiert. Statt dessen fabuliert das Programm wild drauf los und ähnelt darin wieder einmal dem Hund, der zwar nichts versteht, aber das mit großem Eifer. Wieviel Fehlinterpretationen des PCs vermeidbar wären, zeigt ein Beispiel, das IBM selber im Handbuch als realistisch angibt: "Arbeit ist nicht das ganze streben". Programmseitige Korrekturvorschläge für streben: neben/geben/leben/treten/Leben. Hätte das Programm nur einen Funken semantisches Verständnis und deutschgrammatikalische Erfahrung, wüsste es, dass an dieser Stelle nur ein Substantiv möglich ist. Sämtliche Scheinalternativen würden sich erübrigen, die richtige Lösung wäre gefunden.

Eine fremde Sprache ohne Grammatikverständnis, also nur durch Transkription des phonetischen Materials umsetzen zu wollen, ist selbst für uns Menschen äußerst schwierig. Und daran krankt letztlich auch die maschinelle Spracherkennung. Der Vergleich phonetischer Muster ist technisch nunmal möglich, damit also nutzbar. Die Grammatik-Analyse hingegen ist noch nicht möglich, weshalb man uns weißmachen will, wir könnten getrost darauf verzichten.

Mit ausreichendem Training können Sie zwar schon heute mit Spracherkennung passable Ergebnisse erzielen, doch einer Effizienz-Analyse darf man das Ganze nicht unterziehen. In vielen Fällen kommen Sie mit Tippen schneller weiter als mit Diktieren und Korrigieren, auf jeden Fall bei längeren zusammengesetzten Wörtern. Diese werden zwar erkannt, aber in großgeschriebene Einzelwörter getrennt, so dass nur eine manuelle Korrektur zusammenfügen kann, was zusammengehört. Bei Wortneubildungen wäre dieses Verfahren verzeihlich, nicht aber bei gängigem Vokabular, das durchaus lexikalisch hinterlegbar ist.

Hörsturz

Auch die organisatorische Transparenz des Programms lässt zu wünschen übrig. Welche Funktionen wo genau zu finden sind und durch welche Datei(format)en repräsentiert werden, bleibt unklar. So ringen Sie in Folge eines Rechnerabsturzes vergeblich nach Möglichkeiten, das akustisch gesicherte Diktat einer erneuten Spracherkennung zuzuführen. Und Sie kommen zu dem Schluss: Rechnerabstürze sind offenbar nicht vorgesehen.

Der Ton macht die Musik

Eine nette Beigabe ist das Sprachausgabeprogramm Outload, das beliebige Texte wiedergeben kann. Der 'menschlichen Anmutung' wegen erscheint auf dem Bildschirm ein stilisiertes Gesicht, das Sie durch Zuordnung verschiedenster Gemütszustände wunschgemäß beleben können. Ebenso die Stimme: männlich, weiblich, alt, jung, hoch, tief, rauh.

Zwar ist der Vortrag von Outload einigermaßen verständlich, von Sprachmelodie kann aber keine Rede sein. Mit einigem Wohlwollen könnten Sie sagen: Outload lese mit der Beflissenheit eines Butlers. Mit gebotener kritischer Schärfe würden Sie jedoch feststellen: Die Unfähigkeit zur Transzendenz macht Outload für alle Textsorten ungeeignet, mit Ausnahme von Rechnungen, Adresslisten und natürlich Satiren. Da loben wir uns doch das Grammophon.

Langer Rede kurzer Sinn

In der aktuellen Diskussion über die Zukunft der Informationstechnik spielt Spracherkennung nach wie vor eine wichtige Rolle. Immer wieder malen sich Wissenschaftler die Utopie aus: Mein Computer/Videorekorder/Fax Kühlschrank/Haus usw. versteht mich. Davor kann nur gewarnt werden. Denn aufgrund langjähriger Computer-Erfahrung müssen wir bei der phonetischen Erkennung weiterhin mit einer nicht unbeträchtlichen Fehlerrate rechnen. Aber auch, wenn diese minimal wäre, ist vom PC keinerlei Verständnis zu erwarten. Anders gesagt: Die Spracherkennung wird stets so praxistauglich sein, wie die dahinterliegende Datenbank logisch und praxisgerecht ist. Diese aber, mitsamt ihren Korrekturvorschlägen, könnte schon heute optimiert und ergonomisch gestaltet sein. Doch die Industrie macht keine Anstalten. Und so scheint es, als wolle sie die Spracherkennung einmal mehr als Blendwerk über veraltete Geräte- und Bedienkonzepte stülpen. Damit wäre zwar die 'Featuritis' um ein Element reicher, aber mal ganz ehrlich: ein Hund ist doch wahrlich erquicklicher.

Gerhard Bachleitner