今週末 (4 月 24 ~ 26 日) に試してみたい Home Assistant プロジェクト

in tech

Alexa のような音声アシスタントは使いやすいですが、重大な問題もあります。最も大きなものの 1 つは、音声録音が処理のためにクラウドに送信され、これらの録音の一部は、スマート スピーカーの応答の品質を判断するために雇われたサードパーティの請負業者によって聞かれていることです。プライバシーを侵害しないスマート スピーカーが必要な場合は、いつでも自分で構築できます。

机上の Amazon Echo Gen 4 スピーカーの画像。

私が Amazon Echo スマート スピーカーを手放す 7 つの理由

「アレクサ、出発の時間です。」

独自の音声アシスタントを構築する

アレクサ、あなたは解雇されました

Alexa や Google Home に頼って音声でスマート ホームを制御することにうんざりしている場合、最初に行う必要があるのは、ハードウェアを交換することです。 Amazon Echo と Google Home のスマート スピーカーは、比較的安価に購入できるため人気がありますが、大金を投じて交換する必要はありません。

最も簡単なオプションは、Home Assistant Voice Preview Edition などの既製のスマート スピーカーを購入することです。 69 ドルで購入でき、Home Assistant Cloud に接続すると、すぐに起動して実行できるようになり、Assist 音声アシスタントで音声コマンドを使用してスマート ホームを制御できます。

より安価に実験したい場合は、代わりに独自のスマート スピーカーを構築してみることもできます。 Seeed Studio から reSpeaker Lite 音声アシスタント キットを購入しました。これには、オーディオおよび音声処理を備えたボード、2 マイク アレ​​イ、5 W スピーカー、およびエンクロージャが含まれています。 ESPHome 経由で Home Assistant に接続できる、あらかじめはんだ付けされた ESP32 を備えたボードを購入できるため、部品を接続し、ファームウェアをフラッシュし、エンクロージャを構築するだけで済みます。

これは世界で最も見栄えの良いスマート スピーカーではありませんが、パフォーマンスは安定しています。デバイスの隣にある Hi-Fi スピーカーから音楽が再生されている場合でも、ウェイク ワードを検出できます。ホーム アシスタント クラウドを処理に使用すると、音声コマンドで照明のオン/オフを約 1 秒で行うことができ、私のニーズには十分以上です。

白い背景に Seeed Studio reSpeaker Lite。

ブランド

シードスタジオ

CPU

ESP32-S3R8

reSpeaker Lite 音声アシスタント キットには、2 つのマイク アレ​​イ、事前はんだ付けされた XIAO ESP32-S3 コントローラー、およびオンボードの自然言語理解、干渉キャンセル、音響エコー キャンセル、ノイズ抑制、および自動ゲイン制御を備えた XMOS XU316 オーディオ プロセッサが含まれています。 5W スピーカーを接続すると、ESPHome 経由でホーム アシスタントに接続できる独自のローカル音声アシスタントを作成できます。


ローカル音声用に Whisper と Piper をセットアップする

クラウドに依存する必要はありません

ホーム アシスタント クラウドは、Speech-to-Text (STT) を使用して音声を処理し、Text-to-Speech (TTS) を使用して音声応答を生成する便利な方法です。ただし、クラウドにまったく依存しない真のローカル スマート スピーカーが必要な場合は、独自の STT サービスと TTS サービスをセットアップできます。

Home Assistant では、オープンソースの Whisper 音声認識モデルを使用して、音声コマンドをテキストに変換できます。 Piper ニューラル テキスト読み上げシステムは、ホーム アシスタントで生成されたテキストを音声に変換し、スマート スピーカーで再生できます。

ホーム アシスタントは、ワイオミング プロトコルを使用して音声ハードウェアを Whisper および Piper に接続します。その後、ウェイク ワード検出、音声テキスト変換、およびテキスト読み上げ処理のすべてが独自のハードウェア上で行われ、スマート スピーカーを完全にローカルで使用できるようになります。

スマート スピーカーの応答速度は、使用しているハードウェアによって異なります。 Raspberry Pi 4 の小型モデルを使用して Whisper と Piper を実行することはできますが、応答を得るまでに数秒の遅延が発生する可能性があります。 Raspberry Pi 5 または Home Assistant Green を使用すると、遅延が大幅に短縮され、より強力なハードウェアでは応答時間が 1 秒未満になる可能性があります。

ホームアシスタントグリーン

寸法(外形)

長さ4.41インチ x 幅4.41インチ x 高さ1.26インチ。

重さ

12オンス

Home Assistant Green は、Home Assistant チームが直接作成した事前構築されたハブです。これは、ソフトウェアを自分でインストールする必要がなく、自宅でホーム アシスタントをセットアップするために必要なすべてが付属するプラグ アンド プレイ ソリューションです。


音声アシスタントの設定に n8n を追加する

音声アシスタントをさらに強力に

デフォルトでは、スマート スピーカーは Assist 音声アシスタントのネイティブ コマンドを使用します。これらは、照明のオン/オフやその他のスマート ホーム コマンドなどの操作には便利ですが、Assist には LLM と同じ自然言語処理がないため、コマンドを機能させたい場合は、コマンドの表現のバリエーションを制限する必要がある場合があります。

クラウドまたはローカルでホストされている LLM に音声アシスタントを接続することで、音声アシスタントに自然言語を理解させることができます。 LLM は会話エージェントとして機能し、ユーザーの発言の意図を理解する仕事を処理します。これにより、スマート スピーカーがよりスマートになり、独自のスマート スピーカーのように感じられます。

スマート スピーカーをさらに強力にしたい場合は、n8n などの自動化プラットフォームに接続できます。その後、音声を使用して、他のサービスに接続する n8n オートメーションを実行できるようになります。最も優れている点は、n8n をセルフホストできることで、ホーム ネットワークから流出する必要があるデータの量を削減できることです。

私は、見たり聴きたい音楽、番組、映画のトラッカーとしてなど、幅広いタスクに Notion を使用しています。 n8n をホーム アシスタントに接続することで、スマート スピーカーにテレビ番組をウォッチリストに追加するように指示できます。n8n は、カバー アートやその番組が配信されているストリーミング サービスなど、適切な番組をメディア トラッカー データベースに追加します。

優れたローカルスマートスピーカーはもはや夢物語ではありません

Amazon や Google などの企業は、人々を自社のエコシステムに引き込む優れた方法であるため、スマート スピーカーを比較的低価格で販売しています。以前は、ローカルのスマート スピーカーはクラウドベースの音声アシスタントと競合できませんでしたが、その差は縮まりました。私の自作のスマート スピーカーは、私が望むことをほぼすべて実行します。サブスクリプションも広告もなく、私の言うことをすべて聞く大企業もありません。

関連記事

前の投稿
Ultrahuman があなたの回復スコアと月経周期に基づいてワークアウトビデオを提案するようになりました
次の投稿
次に見るべき「あなた」のような番組