Ollama と VS Code を使用して Windows で完全にローカルな AI コーディング アシスタントを構築しました
クラウドベースのコーディング アシスタントは確かに便利ですが、定期的なサブスクリプションまたは従量課金制の費用がかかり、機密情報となる可能性のある情報をインターネット上に公開することになります。
良いニュースは、操作全体を独自のハードウェアに移行できることです。 Ollama を実行し、特別な拡張機能を介して VS Code に接続すると、大規模なクラウド モデルに代わる、プライベート、オフライン、サブスクリプションなしの代替手段を非常に簡単に立ち上げることができます。
ローカルコーディングエージェントはコストとプライバシーの点で優れています
プライバシー、購読料なし、オフライン使用
コーディング エージェントはこれまで以上に人気があり、最近の改良のおかげで、特に作業を小さなチャンクに分割できる場合には、ローカル コーディング エージェントが大規模なクラウド モデルの有力な代替手段としてますます増えています。
ローカルで実行するといくつかの利点がありますが、その中で最も直接的なのはプライバシーです。コードがマシンから離れることがなければ、独自のコードの漏洩、データの漏洩、または規制要件への違反のリスクが軽減されます。機密性の高いものに取り組んでいる場合、またはプライバシーを重視している場合は、ローカル モデルが最適なオプションです。
さらに、API メータリングや月次サブスクリプションのことは忘れてかまいません。コーディング アシスタントは必要に応じて実行でき、実際の月々のコストは電気代とハードウェアの分散コストだけです。最初は乱暴に聞こえますが、Claude の機能が月額 100 ドルから始まることを考えると (20 ドルのプランはほとんどのヘビー ユーザーにとって制限が多すぎるでしょう)、これはすぐに RTX 5080 のメーカー希望小売価格に跳ね上がります。
データを制御し、サブスクリプションを削減するというアイデアが好きで、ハードウェアを持っている場合は、ローカル AI が最適なオプションです。
ローカル AI セットアップに実際に必要なもの
ローカル AI コーディング エージェントには 3 つのコンポーネントがあります
大規模な言語モデルをコーディング アシスタントとして実行する場合、必要なものが 3 つあります。
- オラマ — 大規模な言語モデルをホストします
- Continue または Cline を使用した VScode — VS コードでユーザー インターフェイスを提供します
- LLM — 実際にコーディングを支援するある種の LLM
任意の LLM を使用できますが、LLM は RAM を非常に消費することに注意してください。適切な経験則として、標準 8 ビット モデルの場合、10 億パラメータごとに 1 ギガバイトの VRAM が必要になります。したがって、Gemma 4 12B には、コンテキスト ウィンドウ用のスペースを除いて、12GB の VRAM が必要になります。
コンテキストも考慮する必要があります ウィンドウ、 これは、AI に与える「もの」の量と、AI が出力する量を組み合わせたものです。コンテキスト ウィンドウは、数百メガバイトから数ギガバイトまで使用する可能性があります。 VRAM の制限に近い状態で実行している場合は、これに注意してください。CPU への負荷が簡単にオフロードされ、パフォーマンスが大幅にボトルネックになる可能性があります。
量子化はあなたの親友ですが、注意点があります
ここで、量子化 (モデル圧縮の一種と考えることができます) が役立ちます。一般的なアイデアを得るには、 量子化された モデルが適合する場合は、量子化を 8 で割ってから、その全体の値をモデルのパラメーター サイズで乗算します。たとえば、Gemma 4 12B の 5 ビット量子化バージョンを実行した場合、5/8 掛ける 12 は 7.5 であるため、7.5 GB の VRAM に収まることが合理的に期待できます。
Qwen 3.6 27B の 3 ビット量子化モデルが 16 GB の VRAM を備えた GPU で実行できるのはまさにこのためです。完全な 8 ビット モデルと比較して、使用する VRAM は 10 ~ 13.5 GB のみです。
「どのモデルを使用するべきか」に対する明確な答えはありません。一般に、量子化モデルは量子化されていないモデルほどインテリジェントではなく、モデルの量子化が進むほどインテリジェントは低下します。
私なら、2 ビット量子化はすぐに除外します。その価値はほとんどありません。 3ビットモデルは、 時々 でも大丈夫。さらに、小さなモデルの大量に量子化されたバージョンを実行することは避けたいと思います。彼らはすでにかなり痩せており、知性の損失は通常、役に立たないほど重大です。
ローカルコーディングエージェントのセットアップ
Ollama とモデルを実行する
開始するには、Ollama Web サイトからインストーラーを使用して Ollama をダウンロードしてインストールします。 Windows または macOS を使用している場合は、実際のインストーラーが利用可能です。 Linux を使用している場合は、curl を使用する必要があります。
インストールして実行したら、ハードウェアに適合するモデルをプルする必要があります。たとえば、Qwen 3.6-27B の Unsloth 量子化バージョンをプルしたい場合は、次を実行します。
ollama run hf.co/unsloth/Qwen3.6-27B-MTP-GGUF:Q3_K_S
私は、より高度なローカルコーディングモデルとして、batiai/qwen3.6-27b:q3 を使用してきました。
Ollama で使用したいモデルを Hugginface で見つけた場合は、そのモデルを開いて、右上の[このモデルを使用する]をクリックします。ダウンロードリンクを自動的に生成できます。プルしたモデルが実際にツールで機能することを必ず確認してください (すべてのモデルが機能するわけではありません)。
それが完了したら、実行できます オラマ 利用可能であることを確認します。
また、Continue でよりインテリジェントなオートコンプリートを実現するために、より小型で軽量のモデル (7B 範囲のものを探してください) を重いモデルと組み合わせて使用することもできます。 27B コーディング アシスタントを実行できない場合は、代わりに量子化された 14B モデルまたは 7B モデルを試してください。特にオートコンプリートに関しては、依然として非常に優れています。
VS Code で AI コーディング エージェントをセットアップする
次に、VS Code に Cline または Continue 拡張機能をインストールします。インストールしたら、PC 上で実行されている Ollama サーバーに拡張機能を指定するだけで、Ollama で利用可能なすべてのモデルを検出できるようになります。
Cline は、指示に基づいて完全に機能するコード ブロックを生成したい場合に最適ですが、インライン オートコンプリートはできません。インラインオートコンプリートだけが必要な場合は、「続行」を使用してください。

この IDE のおかげで実際に私はより優れたプログラマーになりました
1 つの IDE ですべてを制御します。他には何も使いたくないでしょう。
構成が完了したら、いくつかのチャット リクエストを送信するか、数行をオートコンプリートします。応答の遅れがひどい場合、またはシステムの動作が遅いと感じた場合は、VRAM に合わせてモデル サイズをより小さいものに調整する必要があります。実行することもできます オラマ ps システムが GPU と CPU の間でリソースをどのように分割しているかを確認します。理想的な世界では、100% GPU が必要です。 多くの もっと早く。
ローカルコーディング LLM にはいくつかの制限があります
CPU オフロードはパフォーマンスの問題です
ローカル LLM は、大規模なクラウドベース モデルの機能の一部を置き換えることができるようになりました。これは、プライバシーが必要な場合や、単にコンピューティングにお金を払いたくない場合に最適です。
ただし、いくつかの欠点もあります。
私は 16 ギガバイトの VRAM を搭載した RTX 5070Ti を使用しています。実際には、通常の状況では、約 12B を超えるパラメータを持つモデル (Google の Gemma 4 12B など) を使用できないことを意味します。コンテキストとモデル自体の間で、16 GB をすぐに使い切ってしまいます。
16GB が使い果たされると、CPU とシステム RAM への「オフロード」が開始されます。残念ながら、それは 痛々しいほどに それに比べて遅い。 GPU 上で 70 ~ 90 トークン/秒で実行される LLM は、多くの場合、CPU オフロードにより 5 トークン/秒まで速度が低下します。として使用している場合 背景 プロセス、それでいいです。そこに座って終わるのを待っているとしたら、それはかなり不快です。
プライベート AI コーディングは実験ではなく実用的な日常ツールになりました
Ollama、Cline、および専用のコード モデルを組み合わせると、使用方法に注意している限り、日常の作業に実際に役立つ Claude または Copilot のローカル バージョンが作成されます。クラウドには生のパワーという点で利点がありますが、プライバシーやコストが最大の懸念事項になった瞬間に、ローカルのアプローチが効果を発揮します。
関連情報は以下のリンクからご確認いただけます