Über unsMediaKontaktImpressum
Dr. Martina Beck & Matthias Linse 01. Februar 2022

Voice-User-Interface-Design – wie ein Chatbot zu sprechen lernt

Sprachassistenten sind mittlerweile weit verbreitet. Egal, ob integriert in Smartphones, Autos oder Smart Speakern im eigenen Haushalt – sie sind allgegenwärtig. Neben Entertainment und Smart Home spielen sie auch in Health Care und vielen weiteren industriellen Branchen eine immer größere Rolle. Doch wenn die menschliche Stimme das Medium und gesprochene Sprache das Bedienelement sind, dann stehen die Gestalter von Voice-User-Interfaces vor vielen Herausforderungen.

VUI ist nicht GUI – aus Designer-Perspektive

Während es für Graphical-User-Interfaces (GUI) jahrelang erprobte Designparadigmen und Praktiken gibt, ist das Gestalten von Voice-User-Interfaces (VUI) weitgehend noch eine Blackbox und durch viel Trial-and-Error geprägt. Wie kann es VUI-Designern also gelingen, ein Spracherlebnis zu gestalten, das mehr bietet als die monotone Computerstimme einer Telefonhotline, die uns sagt: "Wenn Sie mit einem Servicemitarbeiter verbunden werden wollen, sagen Sie jetzt bitte 'Ja'."?

Smart sollten die Dialogverläufe sein. Und das Gespräch mit dem Sprachassistenten sollte sich möglichst natürlich anfühlen und gleichzeitig den Nutzenden schnell ans Ziel bringen. Anders als GUI-Designer können VUI-Designer keinen visuellen Prototypen erstellen, mit konkreten Anweisungen zu Abständen, Farben und Formen versehen und an das Entwicklungsteam geben.

VUI ist nicht GUI – aus Nutzer-Perspektive

Auch aus der Perspektive der Nutzenden ist VUI anders als GUI. Mit gesprochener Sprache ein IT-System zu bedienen ist weniger alltäglich als eine graphische Bedienoberfläche zu benutzen. In der Breite der Gesellschaft haben sich dafür noch keine Nutzungsroutinen oder allgemeingültige Bedienmuster etabliert. Da es kein "sichtbares" Layout bei einem Voice-Interface gibt, erhalten Nutzer:innen auch kaum Hilfestellung, wie sie mit dem Sprachassistenten interagieren müssen.

Viele Nutzer:innen haben zu hohe oder zu niedrige Erwartungen an Sprachassistenten. Außerdem sorgt die an jeden Sprachassistenten angeschlossene künstliche Intelligenz dafür, dass das System ständig dazulernt und sich sein Verhalten stetig verändert – im besten Fall verbessert.

Natürliche Sprache lässt viel Spielraum

Natürliche Sprache lässt dem Nutzenden viel Freiraum. Sie ist flexibel, mehrdeutig, individuell nutzbar und unterliegt einem ständigen Wandel durch die Sprechenden. So werden Begriffe wie "Fernsprecher" altmodisch und nicht mehr genutzt, neue Begriffe wie "Handy" und "Smartphone" werden dagegen wie selbstverständlich in den Sprachschatz aufgenommen. All diese Eigenschaften sind eine Stärke natürlicher Sprache, auf eine sich verändernde Welt reagieren zu können. Im Umgang mit IT-Systemen wird diese Stärke aber schnell zur Hürde. So wie Kommunikation über natürliche Sprache auch im "echten Leben" Missverständnisse erzeugt, muss auch die Applikation erst einmal dekodieren, welche Absicht der Sprechende verfolgt.

GUI kann parallel, VUI nur Schritt für Schritt

Die Interaktion zwischen Mensch und Maschine kann bei einer graphischen Bedienoberfläche hochgradig parallel erfolgen, während die Interaktion bei einem Voice-User-Interface vorwiegend sequenziell stattfindet. Wie Abb. 1 zeigt, können bei einer GUI verschiedene Informationsebenen gleichzeitig dargestellt, abgefragt und übermittelt werden: Information, Metainformation, Strukturinformation und Bedieninformation. Durch graphische Aufbereitung kann auch noch Gewichtung entstehen und die Aufmerksamkeit der Nutzer:innen gelenkt werden.

Bei der Interaktion über ein Voice-User-Interface nähern sich Sprachassistent und Nutzer:in Aussage um Aussage dem Endergebnis – in diesem Fall der Bestellung einer Pizza – an.

Da Informationen und Interaktionsmöglichkeiten bei VUI für Nutzer:innen nicht sichtbar sind, müssen diese nacheinander abgefragt beziehungsweise systemseitig offengelegt werden. Allerdings bieten VUIs Multitasking-Möglichkeiten. So können Nutzer:innen beispielsweise eine Pizza bestellen, während sie mit dem Auto nach Hause fahren oder einen Kuchenteig kneten und parallel über die Stimme den Ofen einschalten.

Gutes VUI-Design soll den Spaß an der Nutzung erhöhen

Zunächst einmal vorab: Den perfekten Sprachassistenten gibt es nicht. So mancher Nutzer hat sicher schon mal verzweifelt "Alexa, stopp!" gerufen oder diese blau aufleuchtende Box verflucht, weil sie einen schier gar nicht oder wenn, dann falsch versteht (bzw. verstehen wollte).

Durch gutes VUI-Design lassen sich die Frustpotenziale aber reduzieren, sodass die Nutzung mehr Freude bereitet. Wenn man die Stolperfallen von Sprache kennt, das Verhalten der Nutzenden antizipiert und gutes VUI-Design auf die technologische Basis der Plattformen anwendet, lassen sich Dialoge modellieren, die Spaß machen und zum Experimentieren anregen.

Bevor wir zu gutem VUI-Design kommen, möchten wir uns aber zwei Fragen widmen:

  • Wer ist für gutes VUI-Design verantwortlich und welche Skills braucht es dafür?
  • Wie funktioniert ein Sprachassistent überhaupt?

Das VUI-Development-Team – interdisziplinäre Skills sind das A & O

Das VUI-Development-Team ist gemeinsam mit dem Product Owner für das nutzerzentrierte Design des Chatbot verantwortlich. Zu einem erfolgreichen Skillset der Entwickler:innen gehören – neben Programmierfähigkeiten & Test-Know-how – folgende Fertigkeiten: Digital-Design-Kompetenz [1], UX- und UI-Expertise sowie linguistisches Wissen, insbesondere Wissen um die Sprechhandlungstheorie [2;3].

Digital-Designer:innen mit Fokus VUI (kurz: VUI-Designer:innen [4]) bringen das methodische Handwerkszeug für das Gestalten und Konzipieren digitaler Vorhaben mit. Dazu gehören technisches Verständnis – speziell im Kontext VUI – und Modellierungsfähigkeiten. Designer:innen mit Fokus Voice UX verantworten die Validierung der Use Cases mit den Nutzer:innen. Gemeinsam mit Linguisten sorgen sie dafür, dass sich die Dialoge nutzerfreundlich anfühlen. Linguisten sorgen mit ihrer Expertise zudem dafür, dass die Sprachwahl dem regionalen Gebrauch (z. B. Dialekten), der sozialen Gruppe und dem Sprachstil (gehoben, flapsig) entspricht, somit authentisch und natürlich wirkt und dem jeweiligen Nutzer gegenüber konsistent bleibt.  

Nur gemeinsam und nur im Zusammenwirken dieses vielfältigen Know-hows ist das Gestalten und Bauen eines erfolgreichen Sprachassistenten möglich. Basis dafür ist die Kenntnis und fortwährende Beschäftigung mit dem zugrundeliegenden digitalen Material: der Voice-User-Interface-Technologie der verschiedenen Anbieter.

Sprachassistenten – wie funktionieren sie und wie sind sie aufgebaut?

Anbieter für Sprachassistenten gibt es viele. In ihren Grundprinzipien folgen jedoch alle demselben logischen Aufbau. Wir fokussieren uns im Folgenden auf Google und insbesondere auf Amazons Alexa. Zunächst geben wir einen Überblick über die zentralen Services und verwendete Terminologie.

Wer mit dem Voice-User-Interface interagieren möchte, muss das Interface mit Hilfe eines Wake Words aktivieren. Das Aktivierungswort – z. B. "Alexa", oder "Hey Google" – ist vom jeweiligen Anbieter vorgeben. Damit öffnet sich ein Kanal in die angeschlossene Cloud. Integrierte Services zur Spracherkennung (ASR – Automated Speech Recognition) wandeln das Gesprochene in Text. Anschließend wird der erkannte Text verarbeitet (NLP – Natural Language Processing) und interpretiert (NLU – Natural Language Understanding). Die aufbereiteten Daten können nun von den einzelnen Applikationen genutzt werden, um das zugehörige Feature auszuführen und die passende Antwort (Response) an den Nutzer zu geben. Diese wird in der Regel in Textform an die Cloud-Services zur Sprachverarbeitung gesendet, wo der Text wiederum in Sprache gewandelt wird (TTS – Text-To-Speech [5]) und schließlich dem/r Nutzer:in etwa über einen Smart Speaker ausgegeben wird.

An einem Beispiel – "Ich möchte eine Pizza"

In Abb. 2 werden die Wirkzusammenhänge an einem Beispiel gezeigt. Claudia hat die Absicht (Intent), eine Pizza bei einem Lieferdienst zu bestellen. Sie wendet sich an den Alexa-Skill und äußert: "Alexa, sage Meister Pizza, ich möchte eine Pizza Funghi bestellen." Durch das Wake Word "Alexa" öffnet der Smart-Speaker den Kanal zur Cloud und dem zugehörigen Voice-Service, und die gesprochene Sequenz wird dort verarbeitet. Die Invocation "Meister Pizza" verrät Amazon dabei, dass die darauffolgende Äußerung (Utterance) von Claudia an den von Voice-Designern modellierten Custom-Skill weitergeleitet werden soll.

Die Utterance selbst gibt dem System Aufschluss darüber, welche Intention Claudia verfolgt. Hier wurde innerhalb des Alexa-Skills ein "Order-Intent" modelliert, dem die Utterance zugeordnet werden kann. Die Utterance enthält zudem einen Slot (Platzhalter) für den Belag der Pizza, der von Claudia mit "Funghi" befüllt wurde. Die decodierte Textnachricht wird nun an das Bestellsystem der Meister-Pizza-Applikation gegeben. Dort wird die geschätzte Lieferzeit abgefragt und anschließend eine individuelle Antwort (Response) in Form einer Textnachricht generiert. Zurück im Voice-Service wird der Text in Sprache gewandelt (Text-to-Speech), sodass Claudia die Antwort im Anschluss von Alexa vorgelesen bekommt. Das alles geschieht in Echtzeit.

Tabelle 1: Zentrale Begriffe im VUI-Design

Skill (Alexa)

Voice-Applikation im Alexa-Universum (ähnlich einer App auf dem Smarthome)
Action (Google)Googles Pendant zu Alexa Skill
Wake WordAktivierungswort, um den Sprachassistenten zu aktivieren bzw. aufzuwecken. Dieses ist vom Interface vorgegeben.
InvocationWort für Aufruf der Voice-Applikation ("Meister Pizza"). Entspricht in der Regel dem Skill-Namen und ist vom Designer konfigurierbar.
ASR –
Automated Speech Recognition
Die Technologie zur automatischen Spracherkennung.
NLU –
Language Understanding
Die Fähigkeit des Voice-Service, unstrukturierte, menschliche Sprache zu verstehen.
NLP –
Natural Language Processing
Befähigt den Voice-Service, natürliche sprachliche Äußerungen zu verarbeiten und zu decodieren.
TTS –
Text-to-Speech
Das Wandeln von Textinformationen in eine akustische Sprachausgabe.
Intent / IntentionDie Sprachabsicht des Nutzenden, die auslöst, dass bestimmte Aufgaben und Aktionen innerhalb der jeweiligen Sprachapplikation aus- oder durchgeführt werden.
UtteranceDie Äußerung des Nutzenden, die für einen Intent-Aufruf verwendet wird.
SlotEin modellierter Platzhalter in einer Utterance, der mit festgelegten Werten befüllt werden kann.
Response / PromptAntwort, die Nutzende nach der Interaktion von dem Sprachassistenten erhalten.
ElicitationEine offene Rückfrage vom Sprachassistenten an den Nutzenden, etwa zur Befüllung eines Slots. "Welchen Belag möchtest du auf deiner Pizza?"
ConfirmationEine geschlossene Rückfrage des Sprachassistenten an den Nutzenden zur Bestätigung einer Aktion: z. B.: "Alles klar. Eine Pizza Funghi. Soll ich die Bestellung abschicken?"

Die Anbieter der gängigsten Sprachassistenz-Systeme haben keine einheitliche Bezeichnung für ihre Voice-Applikationen. Während Amazons Alexa und Telekoms Magenta von sogenannten Skills sprechen, lautet das Google Pendant "Action". Im weiteren Verlauf nutzen wir den Begriff "Voice-Applikation".

Welcher Sprachassistent macht Sinn? Und welcher soll es denn sein?

Bevor es an die Ausgestaltung einer Voice-Applikation geht, stellt sich die Frage, in welchen Situationen ein Sprachassistent denn überhaupt Sinn macht? Und wenn er Sinn macht, welcher Sprachassistent empfiehlt sich für die angestrebte VUI-Applikation? Soll eher auf Alexa, Google Assistant gesetzt oder gar ein eigener entwickelt werden?

In der Auswahlphase ist es ratsam, sich von Digital-Designer:innen mit Voice-Technologie-Erfahrung unterstützen zu lassen. Folgende Fragen leiten die Auswahl:

  • Geht es um eine kurzfristige VUI-Einzel-Applikation oder ist die Applikation in eine mittel- bis langfristige VUI-Strategie eingebettet?
  • Welche Zielgruppe soll durch den Sprachassistenten unterstützt werden?
  • Adressiert die Anwendung eher die Allgemeinheit oder eine spezielle Zielgruppe?
  • In welchen Ländern befindet sich die Zielgruppe?
  • Welche Sprachen müssen unterstützt werden?
  • Welche Nutzungsstatistiken liegen für Land und Zielgruppe vor?
  • Was ist über die Marktverteilung bzw. den Verbreitungsgrad der verschiedenen Sprachassistenten bekannt?
  • Vor welchem fachlichen Hintergrund und in welcher Branche soll die Voice-Applikation agieren?
  • Mit welchen vordefinierten Feature-Sets unterstützen die Sprachassistenten die Fachlichkeit?  

Handelt es sich bei der Zielgruppe beispielsweise um Menschen mit Mobilitätseinschränkungen, ist ein ausgereifter Sprachassistent ein Schritt Richtung Barrierefreiheit. Hier macht es Sinn, den Fokus auf einen vollumfänglichen Sprachassistenten mit vielen unterstützenden Funktionen zu legen.
 
Je nachdem, in welchen Ländern sich die adressierte Zielgruppe befindet, schließt das den ein oder anderen Sprachassistenten aus. So werden manche Sprachen von den Assistenzsystemen gar nicht oder weniger gut unterstützt. Sollten mehrere Sprachassistenten für die adressierte Zielgruppe in Frage kommen, sind Nutzungsstatistiken und Marktverteilung ein zentrales Auswahlkriterium. Während beispielsweise in Europa aktuell Alexa die Nase in einigen Bereichen vorn hat, nutzt die Mehrheit in den USA den Google Assistant.

Selbstverständlich ist auch das angebotene Feature-Set der Sprachassistenten ein wichtiges Merkmal bei der Auswahl. Auch wenn die grundlegende Funktionsweise der Assistenzsysteme mit ASR, NLP und TTS sich kaum unterscheidet, ist die Menge an Features, die eine VUI-Designerin beim Gestalten nutzen kann, sehr unterschiedlich. Bei einer kontextbezogenen Voice-Schnittstelle ist vieles vom Anbieter vordefiniert. Bei einer Custom API hat die VUI-Designerin viel Spielraum in der Gestaltung der Funktionen und Dialoge.

Kontextbezogene Voice-Schnittstellen sind vordefinierte Schablonen

Amazon, Google und Co. bieten kontextbezogene Voice-Schnittstellen an. So gibt es Automotive-, Gaming- oder Smart-Home-APIs, die auf definierte Anwendungsfälle ausgelegt sind. Das Zusammenspiel zwischen Voice-Interface und Nutzer:in ist – vor dem Hintergrund einer ausgewählten Fachlichkeit – vom Anbieter bereits modelliert. Die möglichen Utterances des Nutzers sowie die Responses der Voice-Applikation sind somit definiert.

Zum Beispiel bietet die Smart-Home-API eine Art natives Feature-Set im Smart-Home-Kosmos des Assistenzsystems. Diese bereits vorgestaltete Schablone können Gerätehersteller nutzen, um ihre Geräte in den jeweiligen Sprachassistenten zu integrieren und über Sprache steuerbar zu machen.

Zudem können Nutzer:innen auf einfache Weise einen individuellen Befehl wie "Alexa, guten Morgen!" konfigurieren. Diese sogenannte Routine führt mehrere Aktionen aus – wie das Licht anschalten, den Lieblingssong spielen und die Kaffeemaschine einschalten. Die Smart-Home-Geräte können dabei von unterschiedlichen Herstellern stammen. Tendenziell sind die Smart-Home-APIs darauf ausgerichtet, kurze und einfache Kommandos entgegenzunehmen. Eine vollumfängliche Sprachassistenz bieten sie nicht.

Eine kontextbezogene Schnittstelle bietet weniger Freiheitsgrade in der Gestaltung. Sie ist einerseits mit weniger Aufwand gestaltbar und daher schneller im Einsatz als eine Custom-API. Andererseits weist sie ein begrenztes Set an Funktionalitäten mit kaum Individualisierungsmöglichkeiten auf.

Nehmen wir an, die neue Dunstabzugshaube eines Herstellers bietet ein innovatives Feature zur Luftreinigung des Raumes an. Die gewählte Smart-Home-API unterstützt jedoch nur Standardfunktionen wie Gebläse ein- und ausschalten. Der VUI-Designer könnte somit dieses Feature nicht in die Sprachsteuerung integrieren.

Custom-Voice-APIs sind interaktiver und fühlen sich natürlicher an

Das obige Beispiel "Ich möchte eine Pizza" zeigt eine Alexa-Custom-API. Dort bestehen große Freiheitsgrade, so dass das gestalterische Element eines VUI-Designers voll zum Tragen kommt.

Hier ist der Dialogverlauf frei zu definieren, welche Äußerungen Nutzer:innen machen können, welche Funktionen ausgeführt werden und was der Sprachassistent antwortet. Damit kann ein VUI-Designer eine umfassende Sprachassistenz in Form von natürlichen Dialogen inklusive Unterstützung gestalten und etwaige Erkennungs- oder Verständnisprobleme in den Dialogen behandeln.

Bei einer Custom-API ist nutzerzentriertes Design möglich. Durch die Freiheitsgrade in der Gestaltung ist diese tendenziell aufwändiger zu entwickeln als eine kontextbezogene Schnittstelle.

Einen komplett eigenen Sprachassistenten entwickeln? Eher nicht.

Einen komplett eigenen Sprachassistenten zu entwickeln hat sich unserer Erfahrung nach als nicht praktikabel herausgestellt. Selbst große Konzerne sehen mittlerweile davon ab. Der Aufwand, eine eigene künstliche Intelligenz inklusive gut funktionierender Spracherkennung aufzubauen, ist enorm hoch und steht in keiner Relation zu den daraus entstehenden Vorteilen.

Was nützt maximale Individualisierbarkeit, wenn ich keine Nutzer habe, die das System verwenden? Alexa, Google Assistant und Siri sind hingegen bereits in sämtliche Endgeräte integriert. Und das gleich mehrsprachig. Zudem lebt eine gute künstliche Intelligenz von möglichst vielen Nutzungsdaten, vor allem, wenn es um so etwas komplexes wie natürliche Sprache geht.

Gutes VUI-Design – was bedeutet das für eine Custom-Voice-API?

Custom-Voice-Applikationen können schnell komplex werden. Ein gutes, nutzenstiftendes Spracherlebnis erfordert ein durchdachtes VUI-Design, das auf drei Ebenen stattfindet:

  • im Interaction-Model-Design,
  • beim sprachlichen Response-Design und
  • beim funktionalen Design.

Nur wenn VUI-Designer alle drei Designebenen gut aufeinander abstimmen, führt das zu einer nutzerfreundlichen User Experience.

Interaction-Model-Design bestimmt, wie Nutzer und Sprachassistenten interagieren

Ein gutes Interaction-Model ist der Kern zur Nutzung einer Voice-Applikation. Hier definieren Digital-Designer, wie die Nutzenden mit dem System interagieren und was von diesen gesagt werden kann. Das Modell beinhaltet die Intents inklusive aller Slots und Utterances. Die AI nutzt das Interaction-Model als Basis für die Spracherkennung und Interpretation des Gesagten, um die gewünschte Funktion auszuführen.

Den VUI-Designer leiten beim Design des Interaction-Model folgende Fragen:

  • Wie spricht meine Zielgruppe?
  • Welche lokalen Unterschiede gibt es in der Sprache (z. B. Dialekte)?
  • Welche Begriffe werden innerhalb des Produktkosmos genutzt?
  • Welche Terminologie wird im fachlichen Kontext der Applikation genutzt?
  • Welche Synonyme sind in Gebrauch?

Es empfiehlt sich, die vom VUI-Designteam aufgestellten Hypothesen zur Sprache durch Nutzerbefragungen zu verifizieren und anzureichern. Zusätzlich sollte das Interaction-Model dynamisch modelliert werden, sodass kontinuierlich Probleme in der Spracherkennung überprüft und ausgewertet werden. Bei graphischen Oberflächen sind es die Nutzenden, die sich an die Applikation gewöhnen. Im sprachlichen Kontext hingegen muss sich die Applikation an die individuellen sprachlichen Gepflogenheiten des Nutzers gewöhnen. Erst dann ergibt sich ein natürliches Spracherlebnis.

Bei den Custom-APIs besteht zwar großer Gestaltungsspielraum beim Interaction-Model, jedoch müssen die VUI-Designer auch hier auf korrekte Formate und Regeln der Anbieter-Plattform achten. Das Interaction-Model sowie alle Responses prüft das Zertifizierungsteam der Anbieter vor Veröffentlichung. Erfahrungsgemäß lassen sich dabei Feedbackschleifen zwischen Voice-Team und Zertifizierern nicht vermeiden. Allerdings können diese Schleifen kurzgehalten werden, wenn das Designteam die jeweiligen Regeln und Best Practices kennt [6;7].

Das Response-Design definiert, wie der Sprachassistent reagiert

Beim Response-Design geht es um das Gestalten der Antwort des Sprachassistenten. Also um das, was Nutzende als Antwort von Alexa oder Google Assistant auf ihre Äußerungen hören. Im Response-Design sollte der VUI-Designer Fragen, Hinweise und Warnungen so gestalten, dass sie als solche von den Nutzer:innen erkannt und unterschieden werden.

Antworten sollte der VUI-Designer möglichst so gestalten, dass die Aussage Hinweise auf den nächsten Gesprächsschritt enthält:

  • Beispiel 1: Äußerung des Nutzers: "Starte die Waschmaschine mit Baumwolle."
    Response des Sprachassistenten: "Bei wieviel Grad soll gewaschen werden?"
    Diese Antwort suggeriert schon die Form des Folgeinputs, nämlich, dass eine Gradzahl erwartet wird.
  • Beispiel 2: Äußerung der Nutzerin: "Bestelle eine Pizza Margherita"
    Response des Sprachassistenten: "Möchtest du den Boden aus Vollkorn oder Weizen?"
    Auch hier gibt die Antwort bereits die mögliche Antwortauswahl vor.
  • Beispiel 3: Äußerung der Nutzerin: "Bestelle eine Pizza Margherita"
    Response des Sprachassistenten: "Was für einen Boden möchtest du?" oder "Bitte wähle einen Boden!"
    Sind die Antworten so formuliert, erhält die Nutzerin keinen Hinweis, welche Möglichkeiten zur Auswahl stehen. Eine Vielfalt von Antworten und Reaktionen sind möglich.

Das Sprachdesign lenkt den Nutzer

Unter anderem spielt die Prosodie eine große Rolle beim Antwort-Design. Sie umfasst in der Linguistik Elemente wie Akzent, Intonation und Pausen, die einen Satz gliedern und beleben. Prosodie und Wortwahl in Kombination mit der passenden Syntax und Phonetik sind der Schlüssel, damit Nutzer:innen den Sprachassistenten verstehen. Dabei muss dem Nutzer transportiert werden, wann und wie dieser zu interagieren hat. VUI-Designern hilft, das Sender-Empfänger-Modell nach Shannon/Weaver zu kennen und vor diesem Hintergrund den Dialog zu modellieren [8].

Responses von Alexa und Google können durch SSML (Speech Synthesis Markup Language) für Zuhörende verschönert werden [9]. Mit Hilfe von vorgegebenen Tags kann die Sprache so beeinflusst werden, dass sich die generierte Antwort des Sprachassistenten möglichst natürlich anfühlt. Wie in Abb. 3 zu sehen, können beispielsweise Sprechpausen eingefügt, Wörter in ihrer Intonation beeinflusst oder Zahlen anders ausgesprochen werden. SSML ist sozusagen das CSS (Cascading Style Sheets) von VUI.

Stimme und Wortwahl des Sprachassistenten schaffen eine Persönlichkeit

Menschen machen sich unweigerlich ein Bild von ihrem Gesprächspartner. Das gilt auch für den Sprachassistenten. Stimme, Wortschatz und Betonung triggern beim Nutzer für das Voice-Interface quasi automatisch eine eigene Persona. Dieses Bild beeinflusst stark, ob Nutzer den Sprachassistenten gerne nutzen oder nicht. Daher ist das Gestalten der VUI-Persona ein weiterer Schlüssel für ein gutes Design. Diese sollte sympathisch rüberkommen und sich im Idealfall an Use Case und Zielgruppe orientieren. Im Falle des oben genannten Pizza-Lieferservice könnte sich beispielsweise anbieten, das Interface mit einem herzlichen, italienischen Akzent auszustatten.

Allerdings ist auch hier der VUI-Designer – je nach Voice-Plattform und Anwendungsfall – in seinen kreativen Möglichkeiten beschränkt.

Das funktionale Design definiert den Dialogablauf und die Interaktion mit anderen Systemen

Neben Design der Sprache sind der logische Ablauf eines Dialogs und die Interaktion mit anderen Systemen entscheidend. Beim funktionalen Design sollte sich der VUI-Designer an der Frage orientieren: Wie würde ein Mensch mit der Situation umgehen und antworten?

Bevor – im Beispiel der Pizzabestellung – dem Nutzer die Frage nach der Auswahl eines Vollkornbodens gestellt wird, sollte im System geprüft werden, ob Vollkornteig (noch) verfügbar ist. Breaking Points und unnötige Schleifen sind bei VUIs unbedingt zu vermeiden. Gerade bei VUIs erwarten Nutzer eine gewisse Intelligenz des Systems, da dieses Verhalten für einen Menschen natürlich und realitätsnah ist. Nutzer:innen erwarten von ihrem Pizzabäcker in der Realität, dass er aktiv darauf hinweist, dass es keinen Vollkornteig mehr gibt, er alternativ aber Weizenteig anbieten kann. Genau dieses Verhalten erwarten Nutzende auch bei smarten Systemen und besonders bei VUIs.

Gutes Dialog-Design mit Happy Path und Fehlerbehandlung

Um gute Dialoge aufzubauen, müssen VUI-Designer also Interaction-Model, Response-Design und funktionales Design zusammenbringen. Für die Konzeption haben sich in der Praxis Flow-Diagramme (s. Abb. 4) bewährt. Die VUI-Designer modellieren darin den Nutzer-Input, logische und technische Abfragen sowie die Responses. Beim Gestalten empfiehlt es sich, mit dem Happy Path – also dem erfolgreichen Durchlauf – zu beginnen. Es gilt unter anderem zu definieren, welche Bedingungen erfüllt sein müssen, damit Nutzer:innen erfolgreich ans Ziel kommen.             

Nach dem Design des Happy Path sollten sich VUI-Designer dem Umgang mit "Fehlern" widmen. Hierbei ist besonders wichtig, Sackgassen im Dialog zu vermeiden. Wenn es etwa keinen Vollkornteig mehr gibt, dann teilt der Sprachassistent die Tatsache dem Nutzer mit und bietet ihm eine mögliche Alternative an. So, wie es auch ein Pizzabäcker in der Realität tun würde.

Multimodales Design – Ein VUI kommt selten allein

Voice-User-Interfaces stehen selten für sich allein. Meist sind sie an weitere Systeme gekoppelt, die angesprochen oder abgefragt werden. Darüber hinaus werden Sprachassistenten oft ergänzt durch Interfaces zur Anzeige und Ausführung von Funktionen. Das können plattformeigene Smart Speaker mit integriertem Display sein, eine App auf dem Smartphone oder die physischen Bedienelemente eines Geräts. Dies ist insbesondere im Smart-Home-Bereich üblich.

Beim multimodalen Design sollten Digital-Designer berücksichtigen, dass Nutzer:innen sich auf allen Endgeräten zurechtfinden müssen. Begriffe zur Ausführung von Funktionen sollten daher über alle Interfaces hinweg gleich verwendet werden.

Fazit: Die VUI-Technologie entwickelt sich schnell – Inspect & Adapt!

GUI ist nicht VUI, das sollte klar geworden sein. Dennoch gibt es Best Practices, die sich beim VUI-Design bewährt haben. Die folgenden Aspekte halten wir für zentral:

  1. Nutzer:innen stehen bei VUI (noch mehr) im Mittelpunkt: Durch die Bedienung eines IT-Systems über Stimme kommt die individuelle Ausdrucksweise der Nutzer:innen stark zum Tragen. Dies ist beim Design zu berücksichtigen. Das System muss sich stetig anpassen.
  2. Das Wissen um die VUI-Technologie ist zentral: Voraussetzung für viele Design-Entscheidungen ist die Kenntnis der Materialkunde rund um VUI. Egal, ob Alexa, Google Assistant oder ein anderes Assistenzsystem, ein jedes hat ein eigenes Feature-Set zu bieten, das vom Anbieter stetig weiterentwickelt wird. Daher muss sich das VUI-Team up to date halten, um deren Stärken, Schwächen und Eigenheiten zu kennen.
  3. Das VUI-Team braucht interdisziplinäre Kompetenzen: Auf den Schulterschluss und die enge Zusammenarbeit der verschiedenen Teammitglieder kommt es an. Interdisziplinäres Know-how ist ein entscheidender Faktor auf dem Weg zu einer attraktiven und stabilen VUI-Applikation.  
  4. Gutes VUI-Design findet auf mehreren Ebenen statt: Ein gutes, nutzenstiftendes Spracherlebnis erfordert ein durchdachtes VUI-Design. Nur wenn das Interaction-Model-Design, das sprachliche Response-Design und das funktionale Design gut aufeinander abgestimmt werden, führt das zu einer nutzerfreundlichen User Experience. Hinzu sollte die Multimodalität stets mit bedacht werden.

Die VUI-Technologien entwickeln sich rasant weiter. Für ein gutes VUI-Design ist daher ein agiles Team, das schnell reagieren kann, zentral. In diesem noch neuen Kontext muss immer wieder aufs Neue herausgefunden werden, was geht und was nicht.

"Inspect & Adapt" ist der Schlüssel zu einem guten Sprachassistenten.

Quellen
  1. Informatik Aktuell – M. Beck: Wir brauchen mehr Digital Design!
  2. J.L. Austin: How to Do Things with Words, (In deutscher Sprache: Zur Theorie der Sprechakte).
  3. J. R. Searle; D. Vanderveken: Foundations of Illocutionary Logic. Cambridge University Press, Cambridge 1985.
  4. C. Pearl: Designing Voice User Interfaces, O’Reilly Media, Gravenstein 2017.
  5. M. Cohen, J. Giangola, J. Balogh: Voice User Interface Design, Addison-Wesley 2004.
  6. Amazon: Alexa Design GuideImagine your voice interaction
  7. Google Design: Conversation Design: Speaking the Same Language
  8. Wikipedia: Sender-Empfänger-Modell nach Shannon/Weaver
  9. Amazon: Speech Synthesis Markup Language (SSML) Reference & Dialogflow and legacy Actions SDK

Autor:innen

Dr. Martina Beck

Dr. Martina Beck ist Bereichsleiterin für Digital Design & Engineering bei MaibornWolff. Seit über 25 Jahren ist sie Brückenbauerin zwischen Business und IT.
>> Weiterlesen

Matthias Linse

Matthias Linse ist Digital Designer bei MaibornWolff und seit fünf Jahren in IT-Projekten namhafter Kunden tätig.
>> Weiterlesen
Das könnte Sie auch interessieren
Kommentare (0)

Neuen Kommentar schreiben