Die Mensch-Maschinen-Kommunikation im Audio-Interface-Bereich

Die Lieblingsmusik beim Kochen wechseln, kurz vor dem Zähneputzen nach dem Wetterbericht fragen oder beim Autofahren das Navi bedienen: Da Voice-user Interfaces (VUI) per Sprache bedient werden, kann man seiner Tätigkeit ohne unterbrechen zu müssen, nachgehen. Das bietet einen gewissen Komfort. Um eine möglichst reibungslose User Experience zu garantieren sollen die intelligenten Geräte möglichst menschlich daherkommen. Doch macht das Sinn? Im Bachelorsemester durfte ich unter anderem dieser Frage nachgehen.

Die Lieblingsmusik beim Kochen wechseln, kurz vor dem Zähneputzen nach dem Wetterbericht fragen oder beim Autofahren das Navi bedienen: Da Voice-user Interfaces (VUI) per Sprache bedient werden, kann man seiner Tätigkeit nachgehen, ohne unterbrechen zu müssen,. Das bietet einen gewissen Komfort. Um eine möglichst reibungslose User Experience zu garantieren sollen die intelligenten Geräte möglichst menschlich daherkommen. Doch macht das sinn? Im Bachelorsemester durfte ich unter anderem dieser Frage nachgehen.

Der Fokus der Bachelorarbeit liegt auf der Vermenschlichung von VUI’s. Untersuchungen aus der Psychologie besagen, dass wir Geräte leichter akzeptieren, wenn sie möglichst menschlich entwickelt werden. Kritiker sehen darin eine Gefahr.

Beschäftigt man sich mit dem Thema Mensch-Maschine-Kommunikation kommt zwangsläufig auch die Uncanny-Valley-Theorie (UVH) zur Sprache. Sie wurde 1970 vom japanischen Robotik-Professor Masahrio Mori beschrieben und geht so: Wenn ein Objekt sehr menschlich aussieht, haben wir ab einem bestimmten Punkt das Gefühl, dass es unheimlich aussieht. Ab diesem Punkt empfindet man negative Gefühle gegenüber dem Objekt.

Im empirischen Teil wurde darauf aufbauend untersucht, ob die UVH auch auf synthetische Stimmen zutrifft. Und tatsächlich: Sehr menschlich klingende synthetische Stimmen, die mit künstlicher Intelligenz (KI) entwickelt wurden, lösen beim Hörer mehr Unbehagen aus, als etwas weniger menschliche Stimmen. Zudem bewerten jüngere Menschen die KI-Stimme durchschnittlich besser als die älteren Generationen.

Als Lehrprojekt wurde eine zirka 25-minütige Hörreportage produziert, in welcher dokumentiert wird, wie ich in zwei Monaten versuche, Spanisch zu lernen. Und zwar unter anderem mit einem Amazon-Echo-Skill (App, welches auf dem Gerät eingerichtet wird). In der Repo kommt eine Expertin (Sprachwissenschaftlerin Netaya Lotze) sowie andere Probanden zu Wort. Fazit: Für intensives Sprachenlernen sind die Skills noch nicht genug ausgereift. Zudem muss man Englisch können, um sie überhaupt nutzen zu können. Trotzdem war der ganze Prozess definitiv eine spannende Erfahrung. Obwohl ich noch nicht wirklich Spanisch kann, konnte ich definitiv einige Fortschritte machen.