Alexa, was geht?

Seit gut einer Woche haben wir eine Alexa im Büro. Die Entscheidung, sie zu besorgen, war nicht ganz reibungslos – wir haben im Büro natürlich die „Neu-ist-immer-besser“-Fraktion, die gerne alles hat, was gerade auf den Markt kommt, um es zu testen und herauszufinden, was man damit tun kann. Aber wir haben auch ein paar „Vorsichtige“ bei uns, die die spielverderbenden Fragen stellen. Wollen wir wirklich (noch) eine Wanze bei uns? Wissen die großen Player nicht ohnehin schon genug von uns? Muss man echt jedem Hype nachlaufen und ihn damit auch noch unterstützen? Eine Zeit lang haben die Vorsichtigen die Oberhand gehalten – doch nun ist sie da. Und mit ihr die große Frage: Alexa, was machen wir mit dir?

Unser Ziel ist es, Services benutzerfreundlicher zu machen und den Menschen das beste Medium für das jeweilige Anliegen zu bieten. Und dazu müssen natürlich wir den Status Quo kennen, erforschen und ausprobieren, damit wir dann wissen, wofür sich bestimmte Technologien tatsächlich eignen. Das ist halt einer der Vorteile, wenn man in einer Firma arbeitet, die sich mit verschiedensten Kommunikationsplattformen beschäftigt: Man kann den Alexa Skill „Pups Generator“ runterladen. Für Recherchezwecke. Wirklich.

Aber wofür ist Alexa jetzt tatsächlich sinnvoll? Welche „Skills“ haben einen merkbaren Nutzen? Worin unterscheidet sie sich von ihren Kommilitonen Siri und Google Assistant? Und was wird es mit uns machen, wenn wir einen ständigen Zuhörer bei uns haben, der auf alles eine Antwort hat?

Alexa, wie funktionierst du?

Alexa ist ein digitaler Assistent, der mithilfe gesprochener Sprache gesteuert wird. Der Echo, oder Echo Dot ist dabei nur die körperliche Hülle – die Hardware, die mit Mikrophonen, Lautsprechern, einem kleinen Prozessor, ein bisschen RAM, ein bisschen SSD, WLAN und Bluetooth ausgestattet ist. Recht viel passiert hier nicht. Die Rechnerleistung genügt für Audiowiedergabe, das Ansteuern von bunten LEDs im Korpus und das Erkennen des Schlüsselworts über die verbauten Mikrofone. Die meiste Zeit wartet der Echo. Bis jemand schließlich „Alexa“ sagt.

Das was nach dem Schlüsselwort gesprochen wird, zeichnen die Mikrofone auf und der Echo schickt es in die Cloud, zum sogenannten Alexa Voice Service (AVS), wo es analysiert und verarbeitet wird. Je nachdem was die Anfrage war, können verschiedenste Dinge folgen. Fragt man zum Beispiel, welcher Wochentag heute ist, so kommt vom Service ein Audiofile retour, das der Echo abspielt: „Heute ist Dienstag, der 24. Juli 2018“. Wenn man den Radiosender im Büro (zb. im Sonos) wechseln will, so muss das AVS wissen, dass ein Sonos zur Verfügung steht, welche Radiostationen es gibt, und dann die richtige Handlungsanweisung retour schicken, sodass der Sonos auf den gewünschten Radiosender umschaltet.

Das bedeutet: Kein Internet, keine Alexa. Die gekaufte Hardware funktioniert nur, wenn sie eine Verbindung zum AVS hat. Das bedeutet aber auch: Features können (und werden) laufend eingespielt werden, ohne dass man sein Gerät updaten müsste. Das ist praktisch und angenehm.

Apropos Features: Diese heißen bei Alexa „Skills“ (also „Fähigkeiten“). Und diese können nicht nur von Amazon erweitert werden, sondern auch von jedem anderen Developer. Die Basic-Skills, die Alexa mitbringt, sind zB: das Abspielen von Musik aus diversen Quellen, die Wetter-Abfrage, oder Wissensfragen, deren Antworten meist von Wikipedia stammen. Wenn man die aktuell verfügbaren Skills betrachtet, könnte man vermuten, dass komplexe Inhalte (noch) nicht wirklich mit Alexa abzubilden sind.

Alexa, was kannst du?

Schaut man sich im „Skill-Store“ auf Amazon um, so wird man von zweierlei Dingen doch etwas überrascht: Einerseits wie wenig man an der Hand genommen wird, wenn man durchstöbern will. Ähnlich wie schon die Suche nach Filmen und Serien bei Amazon Prime wirklich unerwartet mies ist (zumindest wenn man Netflix, Youtube und ähnlich komplexe Content-Provider betrachtet), so wirkt auch die Skill-Suche, die ebenso ins Ursprungs-Amazon-UI eingebettet ist, reichlich verstaubt und ist im Vergleich zum PlayStore von Google oder dem AppStore von Apple nicht besonders einladend.

Andererseits überrascht es, wie profan und kindlich ein Großteil der Skills ist, die man dort findet. Neben Akinator, Galgenspiel, und Pups-Generator wirken Skills wie „Fernsehprogramm“ richtig seriös und immerhin ein bisschen hilfreich. Besondere Nischenskills, wie die Fähigkeit, den passenden Maulschlüssel für eine vorhandene Schraube zu bestimmen, natürlich ausgenommen.

Es flutscht einfach nicht.

Es gibt für Alexa richtig viele Skills, und einige machen tatsächlich neugierig auf die „neue“ sprachliche Art zu navigieren. Bis zu dem Zeitpunkt, an dem man merkt: Der Skill funktioniert nicht. Es gibt beispielsweise einen ÖBB-Skill, der unter anderem Zugverbindungen mitteilen können soll. Leider passiert das nicht. Nicht mal, wenn man den Wortlaut vom Beschreibungstext verwendet. Und die ÖBB sind hier bei weitem nicht die einzigen, die mit AVS, der Sprache, und vor allem der User Journey zu kämpfen haben. Es flutscht einfach nicht.

Simple Tasks kann Alexa (auch mit zusätzlichen Skills) durchaus gut bewältigen. Erinnerungen erstellen, oder Timer aktivieren, oder die Frage nach dem Wetter. Tasks, die komplexer als „Frage – Antwort“, oder „Anweisung – Reaktion“ sind, sind schwierig nur über Sprache zu lösen.

Erstens ist jede Aufforderung etwas sperrig und penibel zu formulieren („Alexa, öffne Bring und sag mir, was auf meiner Liste ist“, klingt ja noch machbar – aber wenn man eventuell mehrere Listen hat, wird es schon komplizierter), zweitens ist es schwierig, einen Überblick über Status zu erhalten, wenn jeglicher Inhalt vorgelesen werden muss und es keinerlei visuelles Feedback gibt. Das mag in bestimmten Situationen gut funktionieren, etwa wenn man gerade mit dem Auto (oder auch Fahrrad) fährt, oder für blinde Menschen eine Erleichterung für viele Services bieten – für uns visuell geprägte Handy-Süchtler ist das aber definitiv eine herausfordernde Umstellung.

Sinnvoller, als die Einkaufslistenverwaltung oder das Vorlesen-Lassen der Standard.at-Headlines mögen da schon die Smart-Home-Anwendungen sein. Mithilfe von Alexa kann man zb Lichter einschalten, die Heizung aktivieren, den Staubsauger-Roboter auf Patrouille schicken und Steckdosen steuern.

Da in unserem Büro derzeit hauptsächlich wir Menschen smart sind, der Staubsauger allerdings ohne jegliche Eigeninitiative rumliegt, wenn er nicht gerade übers Parkett geschwungen wird, konnten wir die Smart-Home-Funktionen noch nicht wirklich testen.

Alexa, was nun?

Meine Skill-Kritik mag harsch klingen, vor allem weil die Konkurrenz Google Assistant und Apple’s Siri nicht wirklich besser funktionieren. Aber die Erwartung war halt eine andere. Jedes Android Smartphone der letzten Jahre hat den Google Assistant als Zusatzfeature dabei. Siri ist bei jedem iPhone mit an Board. Es ist erfreulich, wenn das Smartphone, das eigentlich im Kern andere Dinge zu meistern hat, plötzlich auch meine Termine per Sprachbefehl entgegennimmt, oder auf Fragen Antworten liefert. Dem Smartphone nimmt man es nicht so übel, wenn dieses „Zusatzfeature“ noch nicht so toll funktioniert. Wenn man ein Gerät aber nur wegen dieses Features kauft, fallen Unzulänglichkeiten eher auf. Dasselbe gilt natürlich für den Google Lautsprecher oder Apples Homepod.

Ich bin etwas zurückhaltend, was neue Technologien angeht. Wenn sie mir keinen (tatsächlich merkbaren) Vorteil bringen, werde ich sie mit großer Wahrscheinlichkeit nicht nutzen. Meinen Google Sprachassistenten aktiviere ich mit schmutzigen Fingern in der Küche, wenn ich einen Timer stellen muss oder wenn ich schnell eine Erinnerung erstellen muss, bei der der Wortlaut nicht wichtig ist. (Sprachgesteuert Timer-Stellen war übrigens bei meinem SonyEricsson aus den frühen 2000er Jahren schon möglich – ganz ohne alles-speichernde KI im Hintergrund.) Bis ich Nachrichten über Sprachassistenten schreiben und verschicken werde, müssen diese noch lernen, meine Satzzeichen-Befehle richtig zu deuten. Auch sind Korrekturschleifen in sprachgesteuerten Prozessen bisweilen äußerst frustrierend (wer schon mal im Auto versucht hat, Person X per Sprachbefehl anzurufen, und das Smartphone dann Person Y anzurufen versuchte, weiß, dass Sprachsteuerung im Auto nicht unbedingt Garant für aufmerksames und fokussiertes Autofahren ist). Für simple Befehle allerdings funktioniert die Sprachsteuerung auch heute schon recht gut. Komplexere Inhalte sind schwierig – rein sprachlich – abzubilden, ein vollständiger Verzicht auf die Visualität, wie man sie von Smartphones oder sonstigen Devices kennt, ist meiner Ansicht nach in vielen Bereichen nicht sinnvoll.

Es gibt jedenfalls Potenzial zur Verbesserung. Spannend ist die Sprachsteuerung in Verbindung mit lernenden Systemen im Hintergrund auf jeden Fall. Im Moment wird noch viel probiert, aber die wirklichen Use-Cases werden sich bald herauskristallisiert haben und auch welche Integrationen und Kooperationen mit anderen Technologien hilfreich sind. Die Schwachstellen und Verständnisprobleme werden wohl in Zukunft immer geringer ausfallen und der generelle Funktionsumfang wird kontinuierlich wachsen. Damit können Alexa und Co. sicherlich Teil des Alltags werden und uns in einer fernen Zukunft vielleicht tatsächlich sagen, wann der nächste Zug fährt. Der Pups für zwischendurch darf natürlich auch erhalten bleiben.

Kaiserliche UX gefällig?

Kontaktiere uns:

Adresse

E-Mail

Wir trainieren dein Team? Buch unsere Workshops, Trainings und Coachings.

Generative AI: Eine Web-App in 50 Bahn-Kilometern

Die Macht von PHPStan: Fehlererkennung und Codequalität in der PHP-Entwicklung

Web Accessibility - Wie wir Schriftgrößenanpassung & High Contrast Switch umsetzen

Alexa, wie funktionierst du?

Alexa, was kannst du?

Alexa, was nun?

Du willst mit jemanden über das Thema plaudern?

Lukas Kindermann

Generative AI: Eine Web-App in 50 Bahn-Kilometern

Folge #62 mit Susanne Liechtenecker