ホーム アシスタントに最適なローカル AI モデルが常に最大であるとは限りません

in tech

Home Assistant で Large Language Model (LLM) を使用すると、多くの利点があります。自然言語理解を追加し、音声アシスタントを強化し、画像を分析することもできます。ローカル LLM はプライバシーの維持に役立ちますが、常に最大のモデルを使用する必要はありません。

ホーム アシスタントでローカル LLM を使用する

データをプライベートに保ちます

最初のローカル モデルのダウンロードを求める LM Studio セットアップ ガイド

LLM を使用して Home Assistant をより強力にする方法はたくさんあります。一般的な使用法の 1 つは、OpenAI などの企業のクラウドベースのモデルを接続し、Assist 音声アシスタントの会話アシスタントとして使用することです。これにより、照明をオンまたはオフにする特定のフレーズを覚えておく必要がなく、自然言語コマンドを使用してスマート ホームを制御できるようになります。

クラウドベースの LLM を使用する場合の問題は、スマート ホームに関するデータを処理するためにクラウドに送信する必要があることです。これは、スマート ホームに関する情報がサードパーティのサーバーに保存されることを意味します。ホーム アシスタントはユーザーのプライバシーを維持できるように設計されているため、スマート ホームに関する情報を AI 企業と共有することは、この基本原則に反します。

解決策の 1 つは、ローカル LLM を使用することです。クラウドベースの LLM が実行できるのと同じタスクの一部を実行できるモデルを独自のハードウェアで実行できます。ローカル LLM がこれらのタスクをどれだけ迅速または正確に実行できるかは、ローカル LLM を実行するハードウェアと使用するモデルの両方によって異なります。

最大のモデルが必ずしも最良とは限らない理由

スイートスポットを見つける

LLM にはさまざまなサイズがあることがよくあります。同じモデルのバージョンが 4B、9B、70B などの値を持つ場合があります。これらは、モデルが持つパラメータの数を指します。たとえば、70B モデルには 700 億のパラメータがあります。これらのより大きなモデルは、多くの場合、より多くの知識と推論の能力を備えています。

裏を返せば、モデルに含まれるパラメータが多いほど、それらのパラメータを保存するために必要な VRAM も多くなります。たとえば、一部の 70B モデルの実行には 100 GB を超える VRAM が必要になる場合があります。これは、マルチ GPU スタックを実行していない限り、ハイエンドのコンシューマ GPU でも到達できません。また、十分な VRAM がない場合、モデルはまったく実行されないか、非常に遅くなります。

課題は、ハードウェア上で実行できるほど小型でありながら、実行したいジョブを処理できるほど強力なモデルを見つけることです。 llmfit など、ハードウェアでの実行に最適なモデルを知ることができる便利なツールがいくつかあります。

良いニュースは、テクノロジーの発展に伴い、ほんの数年前の非常に大型のモデルを上回る性能を発揮する新しい小型モデルが登場していることです。ローカル LLM から適切なパフォーマンスを得るために、膨大な量の VRAM を搭載する必要はもうありません。

小規模なローカル LLM は基本的なハードウェア上で実行可能

高価なGPUは必要ありません

Beelink Mini S12 Pro ミニ PC の上に置かれたケース内の Raspberry Pi。 クレジット: Adam Davidson / How-To Geek

専用の GPU がなくても、世界の終わりではありません。 GPU に何も渡す必要がなく、CPU だけで実行できる小規模なモデルがいくつかあります。これらのモデルでは、すべてを VRAM に組み込むのではなく、PC のシステム RAM を使用できます。パフォーマンスは GPU で実行される大規模モデルには匹敵しませんが、それでもジョブを実行できます。

16 GB の RAM を搭載し、専用の GPU を持たない Beelink Mini PC でローカル LLM を使用したいと考えていました。私の主な目的は、カレンダーからイベントのリストを取得し、それを朝の音声ブリーフィングのテキストに変換することでした。 Qwen 3.5 4B モデルが優れたスイートスポットであることがわかったという人をたくさん見かけたので、試してみることにしました。

このモデルを使用すると、ブリーフィングを生成できましたが、生成には約 13 秒かかりました。文章はよかったですが、特に感動するものではありませんでした。

処理を高速化するために、使用するパラメーターが少ない、より小さいモデルである Llama 3.2 3B を試しました。このモデルではもっと悪い結果が得られると予想されるかもしれませんが、より自然なサウンドの出力を生成し、他のモデルの半分以下の時間である 6 秒未満でそれを実行しました。

サイズがすべてではないようです。実行できる最大のモデルが常に最良の選択であるとは限りません。より小さいモデルを使用すると、処理が速くなり、より良い結果が得られる場合もあります。

Beelink Mini S13 Pro PC。

CPU

セレロン FCBGA1264 3.6GHz

グラフィックス

統合インテル グラフィックス 24EU 1000MHz

Beelink Mini S13 Pro デスクトップ PC は、Intel N150 プロセッサを搭載した超小型コンピュータです。 16 GB の DDR4 RAM と 500 GB SSD が付属するこのマイクロ デスクトップは、さまざまなワークロードに最適です。単純なサーバー プログラムの実行から古い PC の交換まで、Beelink S13 Pro はあらゆる作業をこなします。


小規模なローカル LLM はすべてに適しているわけではない

会話エージェントとしては苦戦するだろう

Home Assistant の Assist iPhone 上で実行される音声アシスタント。 クレジット: Adam Davidson/ハウツーオタク

思いつきで、これらのモデルのいずれかを Assist の会話エージェントとして使用できるかどうかを試してみました。これにより、特定のフレーズを使用する代わりに、アシストで自然言語の音声コマンドを使用できるようになります。

予想通り、どちらのモデルもこれでは惨めに失敗しました。私のハードウェアでは、これらの小型モデルが迅速に処理するにはコンテキストが多すぎるため、ライトが点灯するまでに 20 秒以上かかり、まったく使用できませんでした。

強力なハードウェアなしでローカル LLM を実行している場合、遅すぎるか、目的の動作ができないため、すべてのジョブには適していません。ただし、朝のブリーフィングの作成など、一部の仕事では、プライバシーを維持しながら必要な結果を得るには、ローカル LLM が最適な方法です。


ローカル LLM を試してみる

ハードウェアがローカル LLM を処理できないと考えてローカル LLM の試行を先延ばしにしていた場合は、小規模なローカル モデルで何ができるかを確認してみる価値があります。宝くじが当たり、強力な AI リグを購入できるようになるまでは、これらの小型モデルで十分に機能します。

関連記事

前の投稿
ストリーミング時代は 26 話のシーズンを廃止しました。それがまさにテレビに必要なものでした
次の投稿
無料の Premiere Pro の代替案を 5 つ試しましたが、これが私が使い続けているものです