Ollama と VS Code を使用して Windows で完全にローカルな AI コーディングアシスタントを構築しました

Posted on 8 6月 8:54 pm

クラウドベースのコーディングアシスタントは確かに便利ですが、定期的なサブスクリプションまたは従量課金制の費用がかかり、機密情報となる可能性のある情報をインターネット上に公開することになります。

良いニュースは、操作全体を独自のハードウェアに移行できることです。 Ollama を実行し、特別な拡張機能を介して VS Code に接続すると、大規模なクラウドモデルに代わる、プライベート、オフライン、サブスクリプションなしの代替手段を非常に簡単に立ち上げることができます。

ローカルコーディングエージェントはコストとプライバシーの点で優れています

プライバシー、購読料なし、オフライン使用

木製の机の上にキーボードケースを付けた iPad で実行されているクロードコードターミナル。

コーディングエージェントはこれまで以上に人気があり、最近の改良のおかげで、特に作業を小さなチャンクに分割できる場合には、ローカルコーディングエージェントが大規模なクラウドモデルの有力な代替手段としてますます増えています。

ローカルで実行するといくつかの利点がありますが、その中で最も直接的なのはプライバシーです。コードがマシンから離れることがなければ、独自のコードの漏洩、データの漏洩、または規制要件への違反のリスクが軽減されます。機密性の高いものに取り組んでいる場合、またはプライバシーを重視している場合は、ローカルモデルが最適なオプションです。

さらに、API メータリングや月次サブスクリプションのことは忘れてかまいません。コーディングアシスタントは必要に応じて実行でき、実際の月々のコストは電気代とハードウェアの分散コストだけです。最初は乱暴に聞こえますが、Claude の機能が月額 100 ドルから始まることを考えると (20 ドルのプランはほとんどのヘビーユーザーにとって制限が多すぎるでしょう)、これはすぐに RTX 5080 のメーカー希望小売価格に跳ね上がります。

データを制御し、サブスクリプションを削減するというアイデアが好きで、ハードウェアを持っている場合は、ローカル AI が最適なオプションです。

ローカル AI セットアップに実際に必要なもの

ローカル AI コーディングエージェントには 3 つのコンポーネントがあります

LM Studio は、CPU 上の LLM パフォーマンスが低い理由について詩を書いています。

大規模な言語モデルをコーディングアシスタントとして実行する場合、必要なものが 3 つあります。

オラマ — 大規模な言語モデルをホストします
Continue または Cline を使用した VScode — VS コードでユーザーインターフェイスを提供します
LLM — 実際にコーディングを支援するある種の LLM

任意の LLM を使用できますが、LLM は RAM を非常に消費することに注意してください。適切な経験則として、標準 8 ビットモデルの場合、10 億パラメータごとに 1 ギガバイトの VRAM が必要になります。したがって、Gemma 4 12B には、コンテキストウィンドウ用のスペースを除いて、12GB の VRAM が必要になります。

コンテキストも考慮する必要があります ウィンドウ、 これは、AI に与える「もの」の量と、AI が出力する量を組み合わせたものです。コンテキストウィンドウは、数百メガバイトから数ギガバイトまで使用する可能性があります。 VRAM の制限に近い状態で実行している場合は、これに注意してください。CPU への負荷が簡単にオフロードされ、パフォーマンスが大幅にボトルネックになる可能性があります。

量子化はあなたの親友ですが、注意点があります

ここで、量子化 (モデル圧縮の一種と考えることができます) が役立ちます。一般的なアイデアを得るには、 量子化された モデルが適合する場合は、量子化を 8 で割ってから、その全体の値をモデルのパラメーターサイズで乗算します。たとえば、Gemma 4 12B の 5 ビット量子化バージョンを実行した場合、5/8 掛ける 12 は 7.5 であるため、7.5 GB の VRAM に収まることが合理的に期待できます。

Qwen 3.6 27B の 3 ビット量子化モデルが 16 GB の VRAM を備えた GPU で実行できるのはまさにこのためです。完全な 8 ビットモデルと比較して、使用する VRAM は 10 ～ 13.5 GB のみです。

「どのモデルを使用するべきか」に対する明確な答えはありません。一般に、量子化モデルは量子化されていないモデルほどインテリジェントではなく、モデルの量子化が進むほどインテリジェントは低下します。

私なら、2 ビット量子化はすぐに除外します。その価値はほとんどありません。 3ビットモデルは、時々でも大丈夫。さらに、小さなモデルの大量に量子化されたバージョンを実行することは避けたいと思います。彼らはすでにかなり痩せており、知性の損失は通常、役に立たないほど重大です。

ローカルコーディングエージェントのセットアップ

Ollama とモデルを実行する

開始するには、Ollama Web サイトからインストーラーを使用して Ollama をダウンロードしてインストールします。 Windows または macOS を使用している場合は、実際のインストーラーが利用可能です。 Linux を使用している場合は、curl を使用する必要があります。

インストールして実行したら、ハードウェアに適合するモデルをプルする必要があります。たとえば、Qwen 3.6-27B の Unsloth 量子化バージョンをプルしたい場合は、次を実行します。

ollama run hf.co/unsloth/Qwen3.6-27B-MTP-GGUF:Q3_K_S

私は、より高度なローカルコーディングモデルとして、batiai/qwen3.6-27b:q3 を使用してきました。

Ollama で使用したいモデルを Hugginface で見つけた場合は、そのモデルを開いて、右上の[このモデルを使用する]をクリックします。ダウンロードリンクを自動的に生成できます。プルしたモデルが実際にツールで機能することを必ず確認してください (すべてのモデルが機能するわけではありません)。

それが完了したら、実行できます オラマ 利用可能であることを確認します。

また、Continue でよりインテリジェントなオートコンプリートを実現するために、より小型で軽量のモデル (7B 範囲のものを探してください) を重いモデルと組み合わせて使用することもできます。 27B コーディングアシスタントを実行できない場合は、代わりに量子化された 14B モデルまたは 7B モデルを試してください。特にオートコンプリートに関しては、依然として非常に優れています。

VS Code で AI コーディングエージェントをセットアップする

次に、VS Code に Cline または Continue 拡張機能をインストールします。インストールしたら、PC 上で実行されている Ollama サーバーに拡張機能を指定するだけで、Ollama で利用可能なすべてのモデルを検出できるようになります。

Cline は、指示に基づいて完全に機能するコードブロックを生成したい場合に最適ですが、インラインオートコンプリートはできません。インラインオートコンプリートだけが必要な場合は、「続行」を使用してください。

この IDE のおかげで実際に私はより優れたプログラマーになりました

1 つの IDE ですべてを制御します。他には何も使いたくないでしょう。

構成が完了したら、いくつかのチャットリクエストを送信するか、数行をオートコンプリートします。応答の遅れがひどい場合、またはシステムの動作が遅いと感じた場合は、VRAM に合わせてモデルサイズをより小さいものに調整する必要があります。実行することもできます オラマ ps システムが GPU と CPU の間でリソースをどのように分割しているかを確認します。理想的な世界では、100% GPU が必要です。 多くの もっと早く。

ローカルコーディング LLM にはいくつかの制限があります

CPU オフロードはパフォーマンスの問題です

ローカル LLM は、大規模なクラウドベースモデルの機能の一部を置き換えることができるようになりました。これは、プライバシーが必要な場合や、単にコンピューティングにお金を払いたくない場合に最適です。

ただし、いくつかの欠点もあります。

私は 16 ギガバイトの VRAM を搭載した RTX 5070Ti を使用しています。実際には、通常の状況では、約 12B を超えるパラメータを持つモデル (Google の Gemma 4 12B など) を使用できないことを意味します。コンテキストとモデル自体の間で、16 GB をすぐに使い切ってしまいます。

16GB が使い果たされると、CPU とシステム RAM への「オフロード」が開始されます。残念ながら、それは 痛々しいほどに それに比べて遅い。 GPU 上で 70 ～ 90 トークン/秒で実行される LLM は、多くの場合、CPU オフロードにより 5 トークン/秒まで速度が低下します。として使用している場合背景プロセス、それでいいです。そこに座って終わるのを待っているとしたら、それはかなり不快です。

プライベート AI コーディングは実験ではなく実用的な日常ツールになりました

Ollama、Cline、および専用のコードモデルを組み合わせると、使用方法に注意している限り、日常の作業に実際に役立つ Claude または Copilot のローカルバージョンが作成されます。クラウドには生のパワーという点で利点がありますが、プライバシーやコストが最大の懸念事項になった瞬間に、ローカルのアプローチが効果を発揮します。

関連情報は以下のリンクからご確認いただけます

詳しい情報を見る

前の投稿

手頃な価格のスポーツカーのほとんどはオートマチックになりました。 2027年型スバルBRZはメモを受け取らなかった

次の投稿

スマートウォッチは気を散らしすぎました – 代わりに切り替えるべきものは次のとおりです

Ollama と VS Code を使用して Windows で完全にローカルな AI コーディングアシスタントを構築しました

ローカルコーディングエージェントはコストとプライバシーの点で優れています

プライバシー、購読料なし、オフライン使用

ローカル AI セットアップに実際に必要なもの

ローカル AI コーディングエージェントには 3 つのコンポーネントがあります

量子化はあなたの親友ですが、注意点があります

ローカルコーディングエージェントのセットアップ

Ollama とモデルを実行する

VS Code で AI コーディングエージェントをセットアップする

この IDE のおかげで実際に私はより優れたプログラマーになりました

ローカルコーディング LLM にはいくつかの制限があります

CPU オフロードはパフォーマンスの問題です

プライベート AI コーディングは実験ではなく実用的な日常ツールになりました

関連記事

関連記事

Galaxy Watch で常時表示ディスプレイを使用すると実際にバッテリーが節約される理由は次のとおりです

今週（6 月 29 日～7 月 5 日）見るべきパラマウント + の注目映画 3 本

サードパーティのウイルス対策ソフトを放棄し、もう後戻りすることはありません

これらのワイヤレス、ノイズキャンセリング JBL イヤホンは現在わずか 40 ドルでセール中です

接続する必要のない効率的なキーボード

335 マイルの EPA は 60,000 ドル未満

TrainingPeaks の新しい GPXplore 機能を使用して、世界中のあらゆるルートを仮想的に走行

PCIe NVMe アダプターが半分の速度で動作する理由

サブウーファーとリアスピーカーを備えたこのLGサウンドバーシステムは現在半額です

SSDのレビューがもう信用できない理由

ホームサーバーを予備の PC のように扱ったため、ホームラボ全体が犠牲になりました

現代コンピューティングの縁の下の力持ち

メニュー

メニュー

Ollama と VS Code を使用して Windows で完全にローカルな AI コーディング アシスタントを構築しました

ローカルコーディングエージェントはコストとプライバシーの点で優れています

プライバシー、購読料なし、オフライン使用

ローカル AI セットアップに実際に必要なもの

ローカル AI コーディング エージェントには 3 つのコンポーネントがあります

量子化はあなたの親友ですが、注意点があります

ローカルコーディングエージェントのセットアップ

Ollama とモデルを実行する

VS Code で AI コーディング エージェントをセットアップする

この IDE のおかげで実際に私はより優れたプログラマーになりました

ローカルコーディング LLM にはいくつかの制限があります

CPU オフロードはパフォーマンスの問題です

プライベート AI コーディングは実験ではなく実用的な日常ツールになりました

関連記事

関連記事

メニュー

Ollama と VS Code を使用して Windows で完全にローカルな AI コーディングアシスタントを構築しました

ローカル AI コーディングエージェントには 3 つのコンポーネントがあります

VS Code で AI コーディングエージェントをセットアップする