Ronald Bieber's Home on the Web

Proseminar Intelligente Benutzerschnittstellen
Prof. Wahlster
Universität des Saarlandes
Wintersemester 1998 / 99

User-Centered Modeling for Spoken Language and Multimodal Interfaces

(Benutzerorientierte Modelle für Sprach- und Multimodal-Schnittstellen)

Vortrag von Ronald Bieber, schriftliche Ausarbeitung und Handout

Einführung

„Durch Modellierung schwieriger Quellen linguistischer Variabilität in Dialogen und Sprache können wir Schnittstellen entwickeln, die menschliche Eingaben transparent lenken um sie den Verarbeitungsfähigkeiten eines Systems anzupassen.

Arbeit dieser Art wird robustere und stärker Benutzer-orientierte Schnittstellen für sprach- und multimodal-gesteuerte Systeme der nächsten Generation liefern.“

Für denjenigen, der sich mit den hier behandelten Themen nicht näher auseinandergesetzt hat, stellen die beiden obigen Paragraphen alles andere als eine leichte Einführung dar. Daher sollen hier zunächst einige Erläuterungen folgen.

Modellierung schwieriger Quellen linguistischer Variabilität in Dialogen und Sprache (speech and language)“ heißt nichts anderes, als das untersucht werden soll, warum Menschen in genau derselben Situation leicht unterschiedliche Dinge sagen, und sei es nur durch ein eingefügtes „Ähh..“.

„Schnittstellen entwickeln [...] Eingaben transparent lenken [...] den Verarbeitungsfähigkeiten eines Systems anpassen“: Wir wollen Systeme so entwickeln, dass die zu erwartende Eingabe die Fähigkeiten des Systems nicht überlastet.

Alles, was der zweite Paragraph hierzu noch ergänzt, ist, dass das Ziel dieser Forschung (kommerziell verwertbare) Systeme mit verschiedenen Eingabemöglichkeiten sein sollen.

Soviel zur Einleitung.

Diesem Vortrag liegt der Artikel

User-Centered Modeling for Spoken Language and Multimodal Interfaces

von Sharon Oviatt

vom Oregon Graduate Institute of Science & Technology

in Portland, Oregon, USA

zugrunde.

Forschungsgebiet der Arbeit: Sprachtechnologie und Benutzerschnittstellen

Die (leider) verbreitete Ansicht bei bisherigen Systemen ist, dass sich der Benutzer an ein System eben anpassen muss. Eine solche Anpassung ist aber nicht immer möglich oder praktikabel. Als Beispiel bedenke man gängige Diktiersysteme, bei denen oftmals künstliche Pausen zwischen einzelnen Wörtern notwendig sind. Solche Pausen lassen sich nur schwer angewöhnen und werden auch leicht wieder vergessen sobald sich der Benutzer eigentlich um inhaltliche Dinge Gedanken machen muss.

Die neue Zielsetzung für dieses Gebiet:

Daraus folgen natürlich letztlich auch bessere Vermarktungschancen für derartig entwickelte Produkte.

Warum sollte man den Benutzer beachten?

Einige Besonderheiten bei gesprochener Sprache

Das Problem: Fehltraining gängiger Systeme

Gängige Systeme werden meist basierend auf vorgelesenen Testtexten entwickelt und trainiert, dadurch geht oft der Dialogcharakter der Sprache verloren. Versprecher, Selbstkorrekturen, Zögern und Ähnliches sind eher ungewöhnlich.

Beispieldialog in multimodalem System

Um kurz zu demonstrieren, wie komplex ein Mensch-Maschine Dialog sein kann, soll hier ein Beispiel eines Systems mit multimodaler Ausgabe aber nur natürlichsprachlicher Ausgabe gezeigt werden:

Benutzer: Wo ist Twin Lakes?

System: [Kartenauschnitt wird angezeigt, ein Punkt wird markiert]

Benutzer: Füge eine Freifläche hinzu.

System: Bitte geben Sie genauere Informationen.

Benutzer: Füge eine Freifläche auf dem nördlichen See ein um Äh... den nördlichen Seeteil der Straße und den Norden mit einzuschließen.

Bestehende Forschungsergebnisse

Ziele der Studien dieser Arbeit:

Wenn diese Ziele erreicht werden, so lassen sich daraus robustere Systeme basierend auf möglichst unveränderten Sprachmustern konstruieren. Der Benutzer muss sich diesen Systemen wesentlichen weniger anpassen, als dies bislang der Fall ist.

Die richtige Testumgebung

Da es darum geht, Funktionen noch nicht fertig gestellter Systeme zu untersuchen, müssen eben diese Systeme simuliert werden, dies geschieht über sog. Wizard of Oz-Experimente. Dafür sprechen auch noch weitere Gründe:

Untersuchtes Phänomen: Unflüssige Sprechweise (Disfluencies)

Beispiele:

Ist die automatische Korrektur von Unflüssigkeiten möglich?

Wann treten Unflüssigkeiten auf?

Die Tabelle zeigt, dass sich in Abhängigkeit von der Dialogsituation die Häufigkeit von Unflüssigkeiten bis zu einem Faktor von elf ändert.

Unflüssigkeiten pro 100 Worte:

Mensch-Mensch Dialog:
2-Personen Telefonat 8,83
3-Personen Telefonat 6,25
2-Personen Gespräch 5,50
Monolog 3,60
Mensch-Maschine Dialog:
Unbeschränkter Dialog 1,74 - 2,14
Strukturierter Dialog 0,78 - 1,70

Interface Design als Ausweg?

Hypothese: Durch geschicktes Interface Design lassen sich Mensch-Maschine Dialoge so strukturieren, dass Unflüssigkeiten minimiert werden.

Dazu sind aber zunächst empirische Studien und eine quantitative Modellierung der festgestellten Phänomene notwendig, um festzustellen, welche Phänomene in der Praxis mit welcher Relevanz auftreten.

Lange Sätze = Fehler?

Unflüssigkeiten vermeiden durch Förderung kurzer Sätze

Anwendungsgebiete:

Nebeneffekte:

Gibt es Abhängigkeiten der Fehlerrate vom Inhalt?

Ortsbeschreibungen bergen eine etwa 50% höhere Chance für Unflüssigkeiten, Selbst relativ einfache Ortsbeschreibungen verführen zu Fehlern.
Beispiele hierfür ist das Verwechseln von rechts und links, Fehler bei der Zuordnung von Himmelsrichtungen und unklare Referenzen auf andere Objekte oder Orte.

Lösung für Ortsbeschreibungen

Untersuchtes Phänomen: Hyperartikulation

Hyperartikulation umfasst:

Gründe von Hyperartikulation

Hyperartikulation ist zumeist der Versuch des Benutzers, betont deutlich zu sprechen, um dem System die Spracherkennung zu erleichtern. Sie tritt meist auf, nachdem das System signalisiert hat, dass es eine Eingabe nicht verstanden hat.

Probleme durch Hyperartikulation?

>> Produktion weiterer Fehler, Frustrationsgefahr! Diese Frustrationsgefahr ist auch bekannt als "Spiral Errors", d.h. ein Fehler des Systems sorgt dafür, dass in der Folge mit hoher Wahrscheinlichkeit weitere Folgefehler auftreten, die ihrerseits wieder Folgefehler verursachen und so weiter. In der Praxis führt dies oft dazu, dass ein Benutzer die Arbeit abbricht und das System nicht mehr verwendet.

Analyse von Hyperartikulation

Beobachtete Phänomene

Lösungsansätze

  1. Training der Spracherkenner auch mit Hilfe von hyperartikuliertem Text.
  2. Entwurf mehrerer Spracherkenner, die je nach erkannter Situation zugeschaltet werden können. Es wäre denkbar, spezielle Hyperartikulationserkenner zu bauen. Abhängig vom System kann es manchmal sehr leicht sein, zu erkennen, welcher Erkenner jetzt gerade benutzt werden muss. Man denke an ein Formulargesteuertes Programm, dass bei einer nicht erkannten Eingabe die selbe Eingabestelle ein zweites Mal benutzen muss; in so einer Situation wäre es ein Leichtes, auf den HA-Erkenner umzuschalten.
  3. Vermeidung von HA durch multimodale Eingabemöglichkeiten. Wenn man manche Dinge schlecht erklären kann, kann man sie vielleicht leichter zeigen.

Multimodale Eingaben

Erfahrungen mit multimodaler Eingabe

Beispiel für Vorteile (Militärisch-geografisches System)

Man stelle sich ein miltitärisches System vor, dass mit exakten Koordinaten arbeiten muss:

Zusammenfassung

Weitere Resourcen: