ツヨツヨのローカルLLMをつくる -3- ソフトウェア関連

ツヨツヨのローカルLLMをつくる -3- ソフトウェア関連

これでハードウェアは出来上がった。

次が「リクラスAI」として使えるようにするためのソフトウェア設定。
基本的な条件としては

  • テキストベースのAIインターフェイスを用意
  • ClaudeやChatGPTなどのように使いやすさを重視
  • ファイルアップロードにも対応する
  • リクラスのWiFiエリア内で使えること
  • 複数人で共有可能
  • 屋外やリモートでも利用できる

いろいろと試行錯誤しながらインストールをしていった構成がこんなかんじ。

ハードウェア

項目 仕様
CPU AMD Ryzen 9 5900XT(16コア/32スレッド)
RAM 64GB
GPU NVIDIA GeForce RTX 3090 24GB
Storage 500GB SSD(261GB使用 / 183GB空き、59%)
OS Ubuntu 24.04.4 LTS(カーネル 6.17.0-23)
アクセス Tailscale:

AI インフラ層

Ollama(v0.23.2)

モデル名 サイズ 用途
qwen3.6:35b-a3b-q4_K_M 23 GB 汎用メイン・Flux変換
qwen3-coder:30b 18 GB コーディング
aider-coder-q30b 18 GB aider専用
coding-agent-q30b 18 GB Open WebUIエージェント
dolphin3:8b 4.9 GB 軽量・高速

vLLM(Docker)

  • イメージ: vllm/vllm-openai:latest(31.8GB)
  • Gemma4 31B AWQ を vLLM で動かす構成(現在停止中)
  • CUDA 13.2 / Driver 595.58.03

サービス層

Open WebUI(v0.9.5)

  • デフォルトモデル: coding-agent-q30b
  • Agent Mode: 有効
  • MCP: 有効
  • Context: 8192 / Temperature: 0.1

LLM Switcher

  • Web UIでOllama / vLLM / ComfyUIを切り替えるコントロールパネル
  • FastAPI製

Flux Studio

  • 日本語→Flux.1英語プロンプト変換API(FastAPI)
  • 使用モデル: qwen3.6:35b-a3b-q4_K_M

Aider MCP Bridge

  • MCPサーバー経由でaiderを呼び出す橋渡し
  • 使用モデル: aider-coder-q30b

Code Server(VS Code in Browser)

  • code-server でブラウザからVSCode操作

いろいろ実験を繰り返している段階なので、ツッコミどころは色々ある(^_^;)

現在メインの推論モデル「qwen3.6:35b-a3b-q4_K_M」は商用サービスには届かないけどまずまずのレスポンス。でもハルシネーションが多いかな。

コーディング用の「qwen3-coder:30b」はレスポンスがいいので結構使えそう。

高性能なマシンだけあって、僕のような「逸般の誤家庭」では太刀打ちできないような環境ができた。

とはいえ、ClaudeやChatGPTのような商用サービスが日々磨いている機能性や使い勝手などにはまだまだ届かないという点が多いと思った。

そのへんは別記しよう。


画像生成についてはかなりすごい性能を感じているけれど、テキスト系の生成AIと共存するほどのVRAMに余裕がないのでBackend Switcherという仕組みを作って切り替えられるようにした。

だから通常は使えないようにしている。

試行錯誤した限りでは画像生成はきれいなものが出力できるけれど、設定やら導入するモデルやLoraモデルなどの選定、そのほかパラメーターが多すぎて難しい。

まぁ、できるという程度にしておこう。

まだ続く