Wenn ich am Abend so im Bett liege, genieße ich vor allem eins: Die Smartphone-freie Zone. Dabei hilft mir vor allem die Home Assistant Sprachsteuerung, damit ich die Beleuchtung steuern kann. Aber Sprachsteuerung ist eben nicht gleich Sprachsteuerung.
Denn wenn man sich Home Assistant so ansieht, dann kristallisiert sich aus meiner Sicht vor allem eine Sache total heraus: Die Freiheit.
Einerseits kann man auch Cloudlösungen setzen, wie zum Beispiel Amazon Alexa. Andererseits funktionieren aber auch lokale Lösungen. Allen voran ist dabei das Gerät, welches gezielt für Home Assistant entwickelt wurde: Der Voice Preview.
Hier hat jeder so seine eigene Philosophie. Das macht die Sache aber extrem spannend. Ich finde vor allen Dingen, dass die Entwickler hier etwas wirklich richtig machen. Denn beide Ansätze werden unterstützt. Zwar ist der lokale Ansatz etwas schwieriger, aber durchaus machbar. Und vor allem eben nicht mit einem unfassbar hohen Aufwand, sondern mit einem übersichtlichen Prozess, den man bewältigen kann.

Inhaltsverzeichnis
Sprachsteuerung im Vergleich
Um das einmal besser einordnen zu können, sollten wir uns vor allem mal einen Vergleich ansehen: Der Unterschied zwischen lokal und Cloud. Denn hier liegt aus meiner Sicht die maßgebliche Differenz zwischen den verschiedenen Anwendern.
Cloudbasierte Lösungen haben immer zwei Schwächen. Einerseits muss der Sprachassistent dauerhaft mit dem Internet verbunden zu sein. Keine Verbindung zur Cloud bedeutet auch gleichzeitig ein Ausfall der Fähigkeit mit dem Smart Home sprechen zu können. Die zweite Schwäche ist ganz klar, dass die Daten auf fremden Servern verarbeitet werden. Ob das innerhalb oder außerhalb der EU ist, spielt aus meiner Sicht erstmal eine untergeordnete Rolle, ist aber natürlich gar nicht zu vernachlässigen.
Lokale Lösungen hingegen funktionieren ohne Verbindung ins Internet. Und sie verarbeiten ihre Daten innerhalb des eigenen Netzwerks. Fällt also nun die Verbindung nach außen weg, kann das Smart Home immer noch per Sprache bedient werden. Das schafft auf der einen Seite Freiheit, auf der anderen Seite Vertrauen. Ich persönlich finde die Vorstellung absolut verlockend, bin allerdings noch nicht sonderlich weit gekommen um ehrlich zu sein.
Das liegt vor allem daran, dass ich in meinem Smart Home Alexa einsetze. Das kann man gut oder schlecht finden, aber hier trifft jeder seine eigene Entscheidung. Für mich ist vor allem aktuell noch ein Argument, dass die Cloudlösungen von der Sprache und vom Verständnis qualitativ noch besser sind. Aber hier holen lokale Lösungen unfassbar schnell auf. Inzwischen gibt es ja auch viele lokale KI-Modelle, die wirklich gut funktionieren (z. B. mit Ollama). Und um ehrlich zu sein muss man ja auch sagen, dass sich Cloudlösungen auch nicht unbedingt weiterentwickeln. Siri ist ja schon lange überholt und auch Alexa gerät immer mehr ins Hinterzimmer. Gerade wenn wir die Sprachfähigkeiten von ChatGPT ansehen – das ist schon der Wahnsinn.
Integration in Home Assistant
Apropos externe Server und lokale Sprachsteuerung … Einer der Gründe, warum es die Home Assistant Cloud gibt ist, dass du darüber Sprachassistenten anbinden kannst. Das hängt mit der Architektur der Systeme zusammen und ist keinesfalls Zufall. Aber: Sie ist optional!
Die Home Assistant Cloud tut vereinfacht gesagt nichts anderes, als deinem Smart Home einen öffentlichen Platz im Internet zu geben. Natürlich in einem gesicherten Rahmen, so dass nicht jeder darauf zugreifen kann.
Diesen öffentlichen Platz brauchst du in vielen Fällen, um einen Sprachassistenten, wie zum Beispiel Amazons Alexa, anzubinden. Denn Alexa verarbeitet ihre Befehle auf Servern, die wiederum vom Anbieter betrieben werden. Jeder Befehl muss also an das Zielgerät weitergeleitet werden. Anders kann er nicht ausgeführt werden. Sie wird aber auch für den Fernzugriff auf Home Assistant genutzt.
Nehmen wir uns als Beispiel mal die klassische Lampe vor. Du sagst Alexa, sie soll die Lampe einschalten. Der Befehl wandert von deinem Echo zu den Alexa-Servern. Dort wird nachgesehen, wohin der Befehl muss. Hierzu gibt es dann wieder eine Schnittstelle in deinem Beleuchtungssystem (z. B. Philips Hue), oft über die Server dieses Anbieters. Der Befehl wandert also von Server zu Server und wird dann erst an dein Heimnetzwerk übergeben. Ab dort ist das Heimnetzwerk dafür zuständig, den Befehl an das richtige Gerät zuzustellen.
Ist der Befehl also bei deinem Router angekommen, wandert er zum Beispiel zur Hue Bridge und wird von dort aus an die Lampe weitergegeben. Das alles passiert innerhalb kürzester Zeit, aber über einen großen Weg.
Ohne den öffentlichen Zugangspunkt zu deinem Smart Home jedoch, würde der Befehl nie ankommen. Deine Lampe würde also nie eingeschaltet werden. Eine lokale Steuerung hingegen umgeht den Umweg und steuert direkt die Hue Bridge an.

Lokale Steuerung mit Alexa
Um das Thema vollständig an dieser Stelle zu machen muss man jedoch auch sagen, dass du sogar mit Alexa halbwegs lokal arbeiten kannst. Hierzu werden Hue-Leuchtmittel emuliert, die dann direkt von Alexa integriert werden können.
Die Sprachbefehle werden zwar immer noch über die Server von Amazon verarbeitet, die Steuerung erfolgt allerdings direkt zwischen Echo und Smart Home. Hierfür zuständig ist beispielsweise node-red-contrib-amazon-echo.
Ich persönlich finde das zwar verlockend, aber würde heute den Weg wahrscheinlich so nicht gehen. Klar, man kann auf jeden Fall den Datenschutzaspekt bei Alexa kritisieren, aber man hat sich auch irgendwo für das Gerät entschieden. So ist das leider.
Viel sinnvoller fände ich dann an dieser Stelle aber den Voice Preview von Nabu Casa, auf den ich im weiteren Verlauf des Artikels noch näher zu sprechen komme. Ich will ihn aber in einem eigenen Artikel gesondert und detaillierter vorstellen.
Wie auch immer. Die halb-lokale Einrichtung kannst du beispielsweise in diesem Blogpost nachvollziehen.
Home Assistant Voice: Lokale Alternative
Wie ich nun bereits angesprochen habe, gibt es aber auch unmittelbar unter Home Assistant Alternativen. Eine der Alternativen ist dabei der Voice Preview von Nabu Casa. Der Vorteil besteht hierbei darin, dass du zwischen der Verarbeitung der Daten wählen kannst.
Entweder das Gerät spricht mit der Home Assistant Cloud oder läuft vollständig lokal. Das bietet dir den Freiraum, dass mit deinen Daten nicht irgendwas passiert, sondern genau das, was du willst! Und du kannst deine Sprachsteuerung auch offline verwenden. Insbesondere in Fällen, bei denen nicht dauerhaft eine Internetverbindung zur Verfügung steht oder sie vielleicht störanfällig ist, kann das ein echter Benefit sein.
Ich persönlich bin beispielsweise sehr fasziniert von den Möglichkeiten. Denn man macht sich so ein Stück mehr unabhängig und ist dazu in der Lage, sein Smart Home wirklich auf eigenen Beinen stehen zu lassen.
Das ist nicht zuletzt deshalb wichtig, da Sprache sehr viel Einfluss auf unser Leben haben kann. Nehmen wir nur mal an, du würdest rund um die Uhr belauscht werden (was wahrscheinlich keiner von uns wird). Da wird man wesentlich vorsichtiger und vielleicht auch ein Stück weit unsicherer. All das kann das Gerät in dieser Form vermeiden.
Wer dennoch mehr Intelligenz will, kann sogar die Sprachfähigkeit von ChatGPT mit dem Voice Preview nutzen. Er ist also ein flexibles Gerät, das irgendwie wirklich alle Bedürfnisse erfüllen kann. Sehr merkwürdig auf der einen Seite, aber auch wahnsinnig spannend auf der anderen Seite.
Lokale Sprachsteuerung einrichten
Um die lokale Sprachsteuerung einzurichten brauchst du im Grunde einen der zwei gängigen Wege: entweder Whisper oder Speech-to-Phrase. Beide haben ihre Vor- aber auch Nachteile. Die musst du gegeneinander abwägen. Dazu habe ich dir eine kleine Vergleichstabelle am Ende dieses Absatzes.
Nach der Installation musst du unter Geräte und Dienste den Service hinzufügen. Erst danach steht der Dienst auch für einen sogenannten Assist zur Verfügung und kann für die Verarbeitung genutzt werden. Was genau der Assist ist, besprechen wir auch gleich noch.
Außerdem brauchst du noch Piper, um wiederum eine Ausgabe von Text zu Sprache zu ermöglichen. Andernfalls wirst du immer noch einen externen Dienst für die Ausgabe benötigen.
Erst wenn du all diese Schritte durchlaufen hast, kann die Sprache wirklich lokal verarbeitet werden. Ansonsten versteht es dein Home Assistant einfach nicht. Das liegt einfach daran, dass Maschinen in der Regel kein Sprachverständnis haben und solche Dienste wie ChatGPT und natürliche Sprache erst so nach und nach Anklang in der breiten Masse finden. Wir waren schlichtweg noch nicht so weit.
Daher muss man an dieser Stelle auch mal eins feststellen: ChatGPT, also OpenAI, hat uns da schon echt einen enormen Schritt weiter gebracht. Andere Unternehmen natürlich auch. Aber von meinem Eindruck her ist seit ChatGPT der Andrang an solche Dinge echt groß geworden.
Doch schauen wir nun nochmal zum Vergleich auf die beiden Möglichkeiten: Whisper und Text-to-Phrase:
| Aspekt | Whisper | Text-to-Phrase |
|---|---|---|
| Ansatz | versucht alles zu übersetzen | übersetzt, was es kennt |
| Performance | langsamer | schneller |
| Sprachen | mehrere | mehrere |
| Hardware | ab Intel NUC | ab Home Assistant Green |
Lass uns nachfolgend noch etwas detaillierter auf die Installation und Einrichtung blicken, damit du wirklich einen vollen Durchblick hast.
Whisper einrichten
Um Whisper auf deinem Home Assistant einzurichten navigierst du in den Einstellungen auf Add-ons und suchst dort nach Whisper. Dieses Add-on installierst du dir und richtest es entsprechend ein. Vor allem auf eine deutsche Sprache solltest du achten, wenn du Home Assistant in Deutsch verwendest.
Auch Starten solltest du das Add-on, dass alle notwendigen Dateien geladen werden und somit einsatzbereit sind. Andernfalls wird das nichts mit der lokalen Sprachsteuerung.
Der Download aller notwendigen Dateien kann dabei einen kurzen Moment dauern. Sei also etwas geduldig und schau oben in den Protokollen, ob es eine Fehlermeldung oder ähnliches gibt. Solltest du keine Fehlermeldung erhalten, dann ist alles in Ordnung.
Sobald das Add-on gestartet ist, navigierst du bitte in den Einstellungen auf Geräte & Dienste. Dort wird dir dann schon Whisper vorgeschlagen, was du unbedingt hinzufügen musst. So wird die Integration in deinen Home Assistant installiert, so dass Whisper für den Assistenten zur Verfügung steht.

Piper einrichten
Piper ist – wie schon erwähnt – für die Sprachausgabe auf deinem Gerät zuständig. Auch hier navigierst du bitte in den Einstellungen auf Add-ons und suchst nach Piper. Lade es dir herunter und achte bei der Konfiguration auch hier wieder darauf, dass du eine deutsche Sprache wählst. Natürlich nur dann, wenn du es auf Deutsch verwenden willst.
Auch dieser Download kann wieder einen kurzen Moment in Anspruch nehmen. Ich empfehle dir übrigens insbesondere zum Start die low-Modelle. Sie sind weniger rechenintensiv und können so auch schneller von schwächerer Hardware genutzt werden. Gerade wenn du einen nicht so starken Server für dein Smart Home nutzt, macht das absolut Sinn.
Nach dem Download navigierst du wieder auf Geräte & Dienste. Dort wird dir nun Piper vorgeschlagen, was du hier wieder hinzufügst. Jetzt steht für den Sprachassistenten Piper als Ausgabemöglichkeit zur Verfügung.
Im nächsten Schritt werden wir nun den lokalen Sprachassistenten sowohl mit Whisper als auch mit Piper verbinden, um eine Ein- und Ausgabe zu ermöglichen.

Lokalen Sprachassistenten konfigurieren
Um nun den Sprachassistenten zu konfigurieren, wechselst du in den Einstellungen von Home Assistant in den Bereich Sprachassistenten. Dort kannst du einen neuen Sprachassistenten hinzufügen. Ich persönlich würde ihn zum Beispiel Home Assistant lokal nennen. So weiß ich immer, dass es sich um die lokale Verarbeitung handelt und sie von Home Assistant durchgeführt wird.
Benenne ihn also, füge die richtige Sprache hinzu und treffe alle Entscheidungen im Dialog.
Bei Sprache-zu-Text wählst du unbedingt fast-whisper aus. Damit löst du die Spracherkennung auf deinem lokalen Server aus, wenn dieser Assistent genutzt wird. Bei Text-zu-Sprache musst du piper auswählen. Dann wird die Sprachausgabe ebenfalls lokal abgewickelt.
Beachte bitte, dass du sowohl bei fast-whisper als auch bei piper die Sprache anpassen musst. Die Standardwerte sehen zwar auf den ersten Blick plausibel aus, allerdings kann die Einstellung im Dropdown abweichen. Ich habe die Einstellung zum Beispiel zuerst ignoriert und dann war keine Ausgabe möglich. Es kam immer nur eine Fehlermeldung, die ich so nicht richtig nachvollziehen konnte. Erst als ich die beiden Werte nochmal angepasst habe, lief es auch richtig.
Bei der Sprache für piper wählst du die aus, welche du vorher im Add-on konfiguriert hast. Willst du sie nochmal ändern, musst du sie auch im Add-on ändern, dass sie im System zur Verfügung steht. Der Download muss also nochmal gemacht werden.
Hast du alle Einstellungen vorgenommen, steht dein Sprachassistent mit rein lokaler Verarbeitung zur Verfügung und kann genutzt werden. Ein sehr spannender Moment wie ich finde!

Nachteile lokaler Ausführung
So schön die lokale Ausführung von Spracherkennung und -ausgabe auch ist, sie hat auch Nachteile. Allen voran die relativ komplexe Einrichtung. Hier muss man ganz klar sagen, dass Amazons Alexa oder Google Home die Nase vorne haben. Denn man steckt sie nur ein, stellt die Verbindung zu Home Assistant her und schon kann man damit arbeiten. Das geht mit der lokalen Verarbeitung leider nicht so einfach.
Wie du gesehen hast, ist der Einrichtungsaufwand etwas höher. Nicht übertrieben hoch, schon machbar. Aber es ist eben mehr als nur einen Stecker in die Steckdose zu stecken und eine Verbindung herzustellen.
Gleichzeitig brauchst du auch eine entsprechende Rechenleistung. Nicht jedes Gerät gibt das her. Je nach System kann es nämlich schon auch mal dazu kommen, dass du mehrere Sekunden auf eine Antwort von deinem Smart Home wartest. Und in der Praxis kann das mitunter ziemlich viel Zeit sein, die man erstmal haben muss. Gerade heutzutage, wo wir so vieles in Echtzeitig (oder nahezu Echtzeit) gewohnt sind, kommt uns das unfassbar lange vor.
Manche Faktoren kannst du beeinflussen, andere musst du nicht täglich erleben. Es kommt hier meiner Meinung nach ganz stark auf die eigenen Präferenzen an, die man sich hier aussuchen kann. Dass Home Assistant uns aber die freie Wahl lässt, ist wirklich sehr stark.
Sprachsteuerung mit Amazon Alexa
Um den Eindruck rund zu machen, sprechen wir noch kurz über die Sprachsteuerung mit Alexa. Da ich sie selbst nutze, habe ich hier die meiste Erfahrung. Aber im Grunde funktioniert es mit Google Home sehr ähnlich.
Beim Einsatz von Amazons Alexa empfehle ich dir grundsätzlich die Home Assistant Cloud zu nutzen. So musst du dich nicht mit DNS, SSL und irgendwelchen Zertifikaten rumärgern. Das erledigt alles die Cloud für dich. Und da Alexa selbst auch in der Cloud läuft, kommt es darauf nun auch nicht mehr an.
Du brauchst zur Einrichtung den Home Assistant Skill, den du in deinem Alexa-Konto aktivieren musst. Dort meldest du dich dann mit deinen Zugangsdaten an und kannst eine Verbindung herstellen. Nutze dabei bitte die Zugangsdaten zur Nabu Casa Cloud. Nicht die Anmeldedaten für deinen lokalen Home Assistant, das ist ganz wichtig.
Sobald die Verbindung steht, kannst du Geräte in Alexa verfügbar machen. Dazu navigierst du in Home Assistant zu den Einstellungen und dort auf Sprachassistenten. Hier findest du die Karte Alexa. Ganz unten in der Karte kannst du dann Entitäten verfügbar machen. Nur verfügbare Entitäten können von Alexa gefunden werden. Das bedeutet konkret, dass du festlegst, was alles gesteuert werden kann.
Sobald die Entitäten verfügbar gemacht wurden wartest du entweder eine Weile ab oder lässt Alexa neue Geräte suchen. Über den Home Assistant Skill werden sie dann importiert und können in Routinen verwendet oder per Sprache angesteuert werden. Ordne sie dabei am besten auch gleich in der App einem Raum zu, das erspart dir dann am Ende mühsames Suchen von Geräten. So halte auch ich meine Ordnung in der App, ohne den Überblick zu verlieren.
Einen guten Leitfaden für mehr Infos findest du unter dem Namen Configuring Amazon Alexa to work with Home Assistant bei Nabu Casa.

Home Assistant Assists
Doch klären wir nun endlich mal die Frage, was ein Assist eigentlich genau ist. Denn der Begriff ist aus meiner Sicht gerade für Einsteiger nicht unbedingt selbsterklärend.
Ein Assist ist die Konfiguration aus Ein- und Ausgabe. Genau diesen Prozess, den du gerade bei der Einrichtung eines lokalen Assistenten gemacht hast. Du legst fest, wie die Eingabe verarbeitet wird aber auch wie die Ausgabe verarbeitet wird. Dabei stehen dir verschiedene Möglichkeiten zur Verfügung.
Eine der Möglichkeiten von eben ist die lokale Verarbeitung. Du kannst aber auch einen Assist anlegen, der zum Beispiel auf ChatGPT zurückgreift. Dadurch wird dein Assistent intelligenter und du kannst wirklich tolle Unterhaltungen führen. Je nachdem, wie du gerade drauf bist, kannst du auch mehrere Assistenten konfigurieren und sie nach Bedarf wechseln. Dadurch hast du für jede Situation den passenden Assistenten, auf den du zurückgreifen kannst.
Wichtig zu wissen ist jedoch, dass Alexa und Google davon erstmal völlig unberührt sind. Denn im Gegensatz zu den Assists in Home Assistant haben sie schon ihre eigene Verarbeitung und Logik, auf die wir keinen Einfluss haben. Das ist sowohl ihre Stärke (weniger Einrichtung) und auch ihre Schwäche (hohe Abhängigkeit vom Anbieter).
Praxistext: Die Alltagsprobe
Was gilt nun für den Alltag? Lokal oder doch Cloud?
Die Frage ist ganz klar eine Präferenzentscheidung. Ich finde lokal wirklich großartig. Insbesondere da ich in meinem Homelab wirklich so vieles verarbeiten kann, das mein Zuhause gar nicht verlässt. Damit eignet sich meine eigene IT vor allem als Spielwiese, Experimentierfeld und Heimatbasis ohne Abhängigkeit. Das zeigt sich vor allem bei der Sprache, denn sie ist – gerade mit der lokalen Verarbeitung – für mich momentan vor allem ein Spielfeld. Ein Spielfeld, um auszuprobieren und zu experimentieren.
Doch eine Sache stört mich persönlich sehr: Die Verzögerung.
Ich will wirklich nicht sekundenlang auf eine Antwort warten. Mehr Hardware würde aber auch viel kosten. Und so gehe auch ich – zu meiner Schande – den bequemen und einfachen Weg mit Alexa. Sie ist für die ganze Sprachabwicklung in meinem Smart Home zuständig und kümmert sich bislang sehr zuverlässig um meine Bedürfnisse.
Aber ich begebe mich natürlich auch in die Laune von Amazon. Jederzeit kann etwas an der Preisstruktur verändert werden. Oder es gibt auf einmal Einschränkungen, die ich gar nicht haben will. Beruhigend daran zu wissen ist aber, dass ich Alternativen habe. Ich kann also wechseln, wann immer es mir passt. Weil Home Assistant es möglich macht.
Und das zeigt wieder ganz schön: Ich habe einfach auf das richtige System für meine Bedürfnisse gesetzt.
Die Zukunft von Sprache
Blicken wir nun zum Abschluss noch auf die Zukunft der Sprache.
Allen sollte klar sein, dass natürliche Sprache im Umgang mit Computern immer bedeutender wird. Das zeigen uns moderne Tools, ChatGPT und auch das Smart Home. Gleichzeitig wird die Qualität immer besser. Wenn ich mich mit ChatGPT unterhalte, ist das schon echt ein wahnsinniges Gefühl.
Wir wissen aber auch, dass die Entwicklung ihren Preis hat. Beispielsweise soll Alexa Plus für knapp 20 Dollar angeboten werden, wenn man keine Prime-Mitgliedschaft hat (siehe: Introducing Alexa+). Man wird also im Grunde so oder so zur Kasse gebeten. Auch ChatGPT verlangt in „der besseren Version“ eine monatliche Gebühr.
Es ist also schon davon auszugehen, dass die Entwicklung so weitergeht und wir immer mehr in Richtung Abos wandern. Das sehen wir ja schon einige Zeit lang. Erfrischend ist es daher umso mehr, dass wir uns lokale Alternativen schaffen können.
Diese lokalen Alternativen sind heute schon gut. Zwar können sie meist noch nicht mit den kommerziellen Anbietern mithalten, aber das müssen sie vielleicht auch nicht. Und selbst wenn sie es müssen, wird es auch hier eine Weiterentwicklung geben. Die ist vielleicht im ersten Moment langsamer. Aber auch kommerzielle Anbieter geraten heute schnell ins Hinterzimmer. Da muss man sich ja nur mal Siri anschauen, die sich ja nun mal wirklich nicht gerade sehr stark entwickelt. Ich bin absolut kein Fan von ihr und nutze sie nur deshalb gerne, weil sie mich im Auto gut unterstützt.
Die Zukunft bleibt hier also spannend. Ich bin mir sicher, wir werden nicht das letzte Mal darüber gesprochen haben.
Wie siehst du das? Bist du eher Team Cloud oder Team Lokal? Was ist deine Präferenz?

0 Kommentare