OllamaはCPUだけでどこまで使える?現実的なPCスペック・設定・GPUとのコスパ比較まとめ

(最終更新日: 2025年12月22日)

GPUなしの手元PCでOllamaは仕事で使える?設定や速度の不安、どこから始めるか迷っていませんか。

この記事は、クラウドAIは慣れているけれどローカルLLMは初めて、という方に向けたやさしい道しるべです。

CPUだけでどこまで快適に動くか、今の社内PCで何ができるかを、具体的な数値と手順で示します。

必要メモリや現実的なスペック、num_gpu=0の考え方・スレッド数・量子化の選び方、モデル別の実用ライン、GPUやクラウドとのコスパ比較まで一気に整理。

読み終われば、まず何を試し、どのタイミングでGPUやAPIに切り替えるかを自信をもって判断できます。

最新の公開情報をもとに、実務でそのまま使える形でまとめました。

OllamaはCPUだけで動かせる?まず押さえたい前提条件

当セクションでは、OllamaをCPUだけで動かすための前提条件と考え方を整理します。

最初に押さえるべき前提を共有しておくと、無駄な投資や設定ミスを避けやすくなるからです。

  • Ollamaは公式にCPU推論をサポートしている
  • 動作に必要な最低ライン:OS・CPU・メモリ・ストレージの目安
  • CPUだけで“まともに動く”とはどういう状態かを定義する
  • CPUのみ運用のメリットと限界を先に整理しておく

Ollamaは公式にCPU推論をサポートしている

結論として、Ollamaは公式にCPUのみの推論をサポートしています。

Windows、macOS、Linuxで動作し、GPUがなくてもモデルをロードして応答できます。

OllamaのCPU推論の概念図。左にWindows/macOS/Linuxのアイコン、中央にCPUチップとAVX/AVX2/AVX-512の注記、右にllama.cppベースのエンジン、下部にモデル(GGUF/量子化)を示す構成図。GPUは任意で点線表記。

内部エンジンはllama.cpp系で、AVXやAVX2、AVX-512などのSIMD命令を自動検出して最適化します。

特にv0.5.8以降はAVX-512対応が強化され、対象CPUではプロンプト評価が大きく高速化します。

詳細は公式ドキュメントやハードウェアサポート、コミュニティ検証で確認できます(参考: OllamaのIntroduction)。

つまり、GPUが“必須条件”ではない点は安心材料と言えます。

動作に必要な最低ライン:OS・CPU・メモリ・ストレージの目安

CPUオンリーで始めるなら、以下の『最低動作ライン』を満たす構成が目安です。

OSとCPUの世代、メモリ容量、ストレージの種類が速度と安定性を大きく左右します。

最短のチェックは表の右欄がすべて『OK』なら着手可能という判断です。

OS対応やCPU検出は公式が明示しているため、迷ったら公式要件を確認してください(参考: Windows – Ollama’s documentationHardware support – Ollama’s documentation)。

NVMe SSDと16GB以上のRAMを確保できれば、7B級モデルの実用域に入りやすいというのが実務的な目安です。

項目これならOKの目安
OSWindows 10/11、macOS 12+、主要Linuxディストリ(Ubuntu等)
CPUAVX2対応のIntel第6世代以降 or AMD Ryzen 1000以降(推奨: AVX-512対応のRyzen 7000/9000、Xeon/Threadripper)
RAM最低8GB、実用は16GB以上(14B級や同時実行を見込むなら32GB〜)
ストレージNVMe SSD推奨、モデル分+OS/アプリで空き30〜50GB以上
  • ディスクはHDDだとモデルロードが極端に遅くなります。
  • メモリはデュアルチャネル以上で帯域を確保してください。
  • モデルはGGUFの4bit量子化が基本で、サイズ縮小と帯域節約に有効です。
  • コマンド操作に不安がある場合は、まず使い方をOllamaコマンド完全ガイドで確認してください。
ollama --version
ollama pull llama3:8b
ollama run llama3:8b

CPUだけで“まともに動く”とはどういう状態かを定義する

このサイトではCPUだけでも『まともに動く』基準を定量的に定義します。

主観に左右されない判断軸があると、PC買い替えや設定変更の優先度を決めやすくなるためです(測り方の考え方はLLMベンチマーク完全ガイドも参照ください)。

チャット応答は毎秒10〜20トークン以上なら、日常業務での待ち時間は許容しやすいとみなします。

短いメール草案は数百トークンを数秒〜十数秒で返せれば、業務利用として現実的と定義します。

著者検証ではRyzen 7 7700+DDR5 32GBでLlama 3.1 8B q4_k_mが約15〜28 tok/s、Core i7-12700+DDR4 16GBで同条件が約8〜14 tok/sでした。

このレンジを下回る場合は、メモリ構成の見直しや量子化設定の変更を先に検討することをおすすめします。

CPUのみ運用のメリットと限界を先に整理しておく

CPUオンリー運用には明確なメリットと限界があるため、先に整理しておきます。

期待値を合わせておくと、後続のサイジングや設定が現実的になるためです。

主なメリットは機密データを外に出さないこと、初期費用を抑えられること、ノートPCでも試せること、運用がシンプルなことです。

一方の限界は速度がGPUの数分の一〜数十分の一であること、巨大モデルと長文に弱いこと、消費電力と発熱が増えることです。

プライバシー設計やローカル完結は公式が明記されており、安心材料として評価できます(出典: OllamaのIntroduction)。

本記事ではこの制約を踏まえ、コスパが高い“落としどころ”を見つける前提で解説を進めます。

メリットデメリット/限界
  • 機密データを外部送信しないローカル完結
  • 初期費用を低く始められる
  • ノートPCなど既存資産でPoCが可能
  • 依存関係が少なく運用がシンプル
  • GPU比で応答が遅い
  • 巨大モデルや長文処理が苦手
  • 長時間推論で消費電力と発熱が増える
  • 並列多数処理は帯域がボトルネック

CPUだけでOllamaを動かすときの現実的なPCスペック目安

当セクションでは、CPUのみでOllamaを実用速度で動かすための現実的なPCスペックの考え方と、モデル規模ごとのメモリ目安、CPUの世代・命令セットの注意点、マシン形態別の体感速度、そしてメモリ帯域とストレージ選定の勘所を整理します。

なぜなら、CPU推論は多くの人が「CPU性能=速さ」と誤解しがちですが、実際にはメモリ容量と帯域が律速になりやすく、要点を外すと極端に遅くなるか、そもそもロードできないためです。

  • メモリ(RAM)が最重要:モデル規模ごとの必要量の目安
  • CPUスペックの考え方:コア数・世代・AVX対応
  • ノートPC・デスクトップ・サーバーでの典型パターンと期待できる体感速度
  • メモリ帯域とストレージ:DDR4/DDR5とNVMe SSDの違い

メモリ(RAM)が最重要:モデル規模ごとの必要量の目安

CPUオンリー運用では「メモリはCPU性能より優先して確保するのが鉄則」です

理由は、CPU推論は計算そのものよりも重みデータの転送がボトルネックになり、容量不足はスワップ発生で壊滅的に遅くなるからです。

以下に4bit量子化(q4系)を前提としたモデル規模別の「ディスクサイズ」「最小RAM」「快適RAM」の簡易表を示します。

業務用途であれば、7B〜14Bクラスに16〜32GB RAMを組み合わせると、精度と速度のバランスが良好です。

長文の入出力でコンテキスト長を伸ばす場合は、この目安より多めのRAMを見込むと安全です。

モデル規模代表例4bitディスク目安最小RAM快適RAMコメント
1B〜3BLlama 3.2 1B/3B, Gemma 2 2B1〜2.5GB8GB16GBエッジや常駐アシスタント向け
7B〜9BLlama 3.1 8B, Mistral 7B, Gemma 2 9B4〜6GB8GB16〜32GB汎用チャット・要約の主力帯
13B〜14BQwen 2.5 14B, Phi-4 14B8〜10GB16GB32GB日本語の精度や推論力を重視
27B〜34BGemma 2 27B, Qwen 2.5 32B16〜20GB32GB64GB専門的タスク向けの余力帯
70BLlama 3.1/3.3 70B39〜43GB48GB64〜128GBCPUのみだと待ち時間長め

詳細仕様や量子化の背景は公式ドキュメントを確認してください(参考: Ollama’s documentation)。

モデルの選び方や運用Tipsは「【2025年版】Ollamaのモデル完全ガイド」でも整理しています。

CPUスペックの考え方:コア数・世代・AVX対応

結論は「AVX2は実質必須、AVX-512対応だと体感が段違い」です

理由は、Ollamaの推論エンジン(llama.cpp系)がSIMD命令を強く活用し、AVX-512ではプロンプト評価が大幅に加速するケースがあるためです。

実務目線では、エントリーはCore i5/Ryzen 5級、スタンダードはCore i7/i9やRyzen 7/9、同時接続や重いRAGはEPYC/ThreadripperやXeonを選ぶと安定します。

ざっくりの世代目安は次のとおりで、自分の型番が該当すれば7B〜14BのCPU推論は「いける」可能性が高いです。

区分世代の目安AVX対応所感
Intel デスクトップ/ノート第8世代以降(推奨は第12〜14世代)AVX2(第12以降は効率/性能コア混在)7Bは実用、AVX-512対応CPUなら更に快適
AMD Ryzen3000以降(推奨は7000/9000)AVX2/Zen4以降はAVX-512Zen4/5はPrompt Evalが速く体感良好
サーバー/WSEPYC Genoa/Turin、Xeon Sapphire Rapids以降広帯域メモリ+AVX-512多ユーザー同時利用に強い

Ollamaは起動時にCPU機能を自動検出し最適化パスを選ぶため、まずは手元のCPUで試すのが近道です(参考: Ollama’s documentation)。

ノートPC・デスクトップ・サーバーでの典型パターンと期待できる体感速度

結論として、7B/8BのCPU推論はノートPCでも十分実用になり、デスクトップや小型サーバーならさらに余裕が出ます。

理由は、DDR世代やチャネル構成が整っていれば帯域が確保でき、生成速度(Tokens/s)が安定して二桁に乗るためです。

以下は代表的な構成と7B/8Bモデルの想定TPS、応答の体感目安です。

構成の例代表CPURAM/帯域7B/8B想定TPS体感
ノートPC入門Core i5-13500H級16GB DDR5 デュアル8〜15 tok/sチャット実用、長文は待ち
デスクトップ標準Ryzen 7 7700/7800X32GB DDR5 デュアル15〜30 tok/s要約・Q&A快適
小型サーバーRyzen 9 7950X / Core i9-1490064GB DDR5 デュアル/クアッド20〜45 tok/s部門内共有にも対応
WS/サーバーEPYC Genoa, Xeon Sapphire Rapids128GB+ クアッド〜オクタ30〜60 tok/s同時接続でも安定

著者環境の実測例として、Ryzen 9 7950X+DDR5-6000 64GBでLlama 3.1 8B q4系が概ね25〜35 tok/s、Core i7-13700H+DDR5 16GBのノートで8〜12 tok/sでした(その他はコミュニティ報告ベースの一般的なレンジ)。

まずは自分の環境をこの表のカテゴリに当てはめ、用途に足りるかを見極めるのが近道です。

ローカル実行の全体像や他構成との比較は「ローカル環境でAIを実行するベストな方法」も参考になります。

メモリ帯域とストレージ:DDR4/DDR5とNVMe SSDの違い

ポイントは、帯域の広いメモリ構成(DDR5やデュアル/クアッドチャネル)とNVMe SSDの採用が、CPU推論の実力をそのまま引き出すということです。

理由は、LLM推論はメモリ帯域律速になりやすく、シングルチャネルは実効帯域が半減して生成速度が落ち、HDDはモデルロードで待ち時間が極端に増えるためです。

下図はチャネル本数による帯域のイメージで、同一世代メモリでも本数が増えるほど有利になります。

メモリチャネル構成による帯域差の概念図。1本=シングルチャネル、2本=デュアル、4本=クアッドで矢印の太さが広帯域を示す。CPU推論では2本以上が推奨。

実践的には、既存PCでもメモリを2枚挿しにしてデュアルチャネル化し、SATA SSD/HDDをNVMe SSDへ換装する投資が最も費用対効果に優れます。

帯域を増やす=そのまま速度に効くと覚え、まずはチャネル数とNVMe化から着手すると良いです。

Ollamaの基本操作やモデル管理は「【2025年版】Ollamaコマンド完全ガイド」で手順を確認できます。

CPUオンリー運用時のOllama設定:num_gpu・num_thread・量子化の実践ガイド

当セクションでは、CPUオンリー運用時に押さえるべきOllama設定(num_gpu・num_thread・量子化)と実践プリセットを解説します。

なぜなら、CPU前提ではメモリ帯域とスレッド効率がボトルネックになりやすく、設定ひとつで体感速度と安定性が大きく変わるからです。

  • GPUなしならnum_gpu=0が基本:CPU専用モードにする方法
  • num_threadの考え方:物理コア数〜論理スレッド数の範囲でチューニング
  • 量子化レベル(q4, q5等)の選び方:CPU向けはまず4bit量子化から
  • モデルごとの設定プリセット例:7Bと14Bでの具体的なサンプル

GPUなしならnum_gpu=0が基本:CPU専用モードにする方法

CPUのみで運用するなら、必ずnum_gpu=0を明示しCPU専用モードを固定するのが最善です。

未指定のままだと、マシンにGPUが検出された場合に一部レイヤーだけGPUへオフロードされる挙動になり、意図せずハイブリッド動作になることがあるためです(参考: Ollama Hardware support)。

最も確実なのはModelfileで固定する方法です。

# Modelfile例:CPU専用固定(num_gpu=0)と合わせてスレッド数を指定
FROM llama3:8b-instruct-q4_K_M
PARAMETER num_gpu 0           # 0でGPUオフロード完全無効(CPUオンリー)
PARAMETER num_thread 8        # 後述の指針に沿って調整
SYSTEM "あなたは日本語に精通したアシスタントです。"
TEMPLATE "{{ .Prompt }}"

一時的な上書きはCLIやAPIのoptionsで行えます。

# CLI(単発実行時の上書き)
ollama run llama3:8b-instruct --options '{"num_gpu":0}' -p "CPU専用で応答して"

# REST API(/api/generate の例)
curl -s http://localhost:11434/api/generate \
  -d '{
    "model": "llama3:8b-instruct",
    "prompt": "CPU専用で要約して",
    "options": {"num_gpu": 0}
  }'

詳細仕様は公式ドキュメントのハードウェアサポートとAPI仕様を参照してください。

結論として、Modelfileでnum_gpu=0を固定すればCPU専用運用が担保され、環境差によるブレを避けられます。

num_threadの考え方:物理コア数〜論理スレッド数の範囲でチューニング

num_threadは「論理スレッド数」を上限目安に、実機の使い方に合わせて少し絞るのが最適解です。

LLMのCPU推論はメモリ帯域に律速されやすく、スレッドを増やし過ぎると競合が増えて逆にTPS(tokens/s)が伸びなくなるためです。

まずはCPUの論理スレッド数(例: 8スレッドなら8)で試し、TPS表示とCPU使用率のバランスを見ながら1ずつ上下させると安定します(操作の基本はOllamaコマンド完全ガイドが参考になります)。

常に他アプリを並行利用するなら1/2〜3/4程度まで下げるとレスポンスが安定し、PC全体の快適さも保てます。

設定はModelfileのPARAMETERか、単発実行時は–optionsで上書きできます。

# Modelfileで固定
PARAMETER num_thread 8

# CLIで一時的に変更
ollama run mistral:7b --options '{"num_thread":6}' -p "要約して"

下図のように4→8→12→16と増やすとTPSは頭打ちし、以降は低下や不安定化が起きやすくなります。

CPUスレッド数とtokens/sの関係を示す折れ線グラフ。横軸がスレッド数(4,8,12,16)、縦軸がトークン毎秒。8〜12でピーク、その後は頭打ち〜低下を可視化。

量子化レベル(q4, q5等)の選び方:CPU向けはまず4bit量子化から

CPU運用は、まずq4系(例: q4_K_M)から始め、品質が物足りなければq5/q6へ段階的に引き上げるのが定石です。

4bit量子化はFP16比でメモリ使用量を約1/3〜1/4に抑え、CPU推論のボトルネックであるメモリ帯域の負荷を軽くできるためです。

Ollamaのライブラリ提供モデルはバランスの良いq4系が多く、まずはそのまま使い、長文要約や厳密なコーディングで不足を感じたらq5/q6を試すとよいです(出典: Ollama Library)。

具体的には、Modelfileでq4_K_Mを指定するか、ライブラリの量子化バリアントを直接pullして利用します。

# 量子化バリアントの例
FROM llama3:8b-instruct-q4_K_M    # まずはq4系で軽量・高速に
# 品質重視に切替える場合(メモリ増)
# FROM llama3:8b-instruct-q5_K_M

選定の考え方は「精度↑にすればメモリ消費↑・速度↓」というシンプルなトレードオフです。

量子化ビット数ごとのトレードオフ図。横軸にメモリ消費、縦軸に精度。q4→q5→q6→FP16で精度は上がるがメモリ消費も増えることを矢印で示す。

モデルごとの設定プリセット例:7Bと14Bでの具体的なサンプル

実用面では、7Bは16GBクラス、14Bは32GBクラスのメモリに合わせて「num_gpu=0+適切なnum_thread+q4_K_M」の三点セットで始めると失敗しにくいです。

根拠は、CPU推論で最重要のRAM要件と帯域のバランスで、7B/14Bはq4系で現実的な速度と品質を両立しやすいからです。

以下にすぐ真似できるModelfile例を示します。

# A) 16GB RAMノートPC × 7B
FROM mistral:7b-instruct-q4_K_M
PARAMETER num_gpu 0
PARAMETER num_thread 8          # 8論理スレッド想定。重い並行作業があるなら6〜7へ
SYSTEM "ビジネス日本語で簡潔に回答してください。"
# 想定ユースケース: メール下書き、議事録要約、軽めのコード修正
# B) 32GB RAMデスクトップ × 14B
FROM qwen2.5:14b-instruct-q4_K_M
PARAMETER num_gpu 0
PARAMETER num_thread 16         # 16論理スレッド想定。安定性重視なら12〜14
SYSTEM "丁寧語で根拠を添えて説明してください。"
# 想定ユースケース: 長文要約、社内Q&A、コーディング支援(説明重視)

より高度なモデル選びやバリアントの見極めはOllamaのモデル完全ガイドLLMおすすめ比較も参考になります。

7B(16GB RAM)と14B(32GB RAM)の推奨プリセットを2枚のカードで図解。各カードにnum_gpu=0、num_threadの目安、量子化q4_K_M、想定ユースケースを記載。

まずは上記プリセットで動作確認し、必要に応じてnum_threadと量子化だけを一段階ずつ微調整すると最短で安定点に到達します。

設定を業務活用まで落とし込みたい方は、体系的に学べるオンライン講座も有益です。

DMM 生成AI CAMPは実務に直結する教材とメンター支援があり、短期間で運用スキルを底上げできます。

自分のPCスペックでどこまでできる?モデルサイズ別の“実用ライン”

当セクションでは、自分のPCスペックで扱えるモデルの現実的な上限と、サイズ別の“実用ライン”を解説します。

なぜなら、CPU推論でもOllamaの最適化と量子化により、メモリ容量とモデルサイズの見極めで体感が大きく変わるからです。

モデルサイズ別の実用ラインを示すSVGチャート。横軸はモデルパラメータ(1B、3B、7B、14B、27B、70B)、縦軸は用途(補助タスク、主力業務、精度重視、バッチ/研究)。各領域に推奨メモリ(8–16GB、16GB、32GB、64GB+)と代表モデル(Llama 3.2 1B/3B、Gemma 2 2B、Mistral 7B、Llama 3.1 8B、Qwen 2.5 14B、Phi-4 14B、Gemma 2 27B、Llama 3.1 70B)を注記。

  • 超軽量モデル(1B〜3B):メモリ8〜16GBのノートPCでも快適
  • 標準モデル(7B〜9B):16GBメモリPCでの“主力”候補
  • 中規模モデル(13B〜14B):メモリ32GB以上で“精度重視”用途向き
  • 大規模モデル(30B〜70B):CPUオンリーではバッチ処理や実験用途に割り切る

超軽量モデル(1B〜3B):メモリ8〜16GBのノートPCでも快適

結論として、1B〜3Bクラスは8〜16GBの一般的なノートPCでも快適に動き、短文応答や補助タスクでは十分に“即戦力”になります。

理由は、OllamaがGGUFと4bit量子化を標準採用し、モデル実メモリを強く圧縮できる一方で、パラメータ規模が小さいほど推論も軽いからです(参考: Ollama Library)。

具体的には、定型文の提案、箇条書き生成、800字程度の簡易要約、プロンプトのたたき台作成などは高速にこなします。

一方で長文の論理的要約や段取りのある推論、複雑なコード生成では7Bとの品質差が目立ちます。

例えば同じ800字ニュース要約でも、3Bは数値や固有名詞の取りこぼしが出やすく、7Bは要点網羅と論旨の通し方が安定します。

したがって、軽快さを最優先する日は1B/3Bを使い、精度が要る案件では7Bへ切り替えるのが現実的です。

タスク例3B(例: Llama 3.2 3B)7B(例: Llama 3.1 8B)
800字ニュース要約主要点は拾うが数値抜けが時々発生要点網羅と論旨の接続が安定
定型メールの下書き十分実用、細部表現は要微調整敬語・宛先・締めなどが自然

標準モデル(7B〜9B):16GBメモリPCでの“主力”候補

結論として、7B〜9Bは16GBメモリPCで日常業務の8割をカバーする“主力”になりやすいです。

理由は、応答速度と理解力のバランスが良く、議事録要約やメール草案、社内Q&A、コードのちょい修正まで汎用性が高いからです。

実例として、1〜2ページの要約はCPU性能にもよりますが数秒〜十数秒が目安で、体感ストレスが小さい水準です。

PoCでまず入れるなら Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B を推奨し、次のコマンドで素早く評価できます。

ollama pull llama3:8b
ollama run mistral:7b
ollama run qwen2.5:7b

モデルごとの特徴やコマンドの詳しい使い方は解説記事も参照してください(Ollamaのモデル完全ガイドOllamaコマンド完全ガイド、参考: Ollama公式ドキュメント)。

まずは7B〜9Bを“社内標準”に据え、重い案件だけ上位へ逃がす運用がコスパの良い落としどころです。

中規模モデル(13B〜14B):メモリ32GB以上で“精度重視”用途向き

結論として、13B〜14Bは32GB以上のメモリ環境で“ここぞ”の精度を取りにいく選択肢です。

理由は、日本語のニュアンス理解や段階的推論、コーディング支援の安定性が増す一方、CPUのみではTPSが落ち長文処理に時間がかかるためです。

実例として、Qwen 2.5 14BやPhi-4 14Bは重要提案書の推敲、契約条項の観点抜け確認、RAGによる社内ナレッジ深掘りで威力を発揮します。

評価時は時間を見積もり、日常は7Bで回しつつクリティカル案件だけ14Bに切り替える運用が現実的です。

RAGの設計や実装の勘所は別章のガイドも参考にしてください(RAG構築のベストプラクティス)。

“日常は軽く、勝負どころは14Bで確実に”という切り分けが、CPU運用では特に有効です。

大規模モデル(30B〜70B):CPUオンリーではバッチ処理や実験用途に割り切る

結論として、30B〜70BはCPUオンリーだと応答が数十秒〜数分に及ぶことが多く、インタラクティブ利用には不向きです。

理由は、量子化してもモデル自体が巨大でメモリ帯域律速の影響が大きく、トークン生成速度が低下しやすいからです。

実用ラインとしては、夜間バッチの大量要約や研究・検証など“待てるタスク”に限定するのが現実的です。

Gemma 2 27BやLlama 3.1 70Bに本格的に取り組む場合は、GPU増設やクラウドの併用も前向きに検討してください(参考: Ollama公式ドキュメントOllama Cloud)。

“この規模はGPUまたはクラウドを推奨”という目安を持ち、用途に応じて賢く住み分けるのが得策です。

体系的にプロンプトや業務活用を学びたい場合は、オンライン講座を活用すると習得が速く進みます(DMM 生成AI CAMP)。

CPUとGPU・クラウドの性能差とコスト差:どこで切り替えを検討すべきか

当セクションでは、CPU・GPU・クラウドの性能差とコスト差を整理し、どのタイミングで切り替えを検討すべきかを解説します。

理由は、OllamaのCPU最適化が進みCPU運用の実用性が高まった一方で、処理の重さや同時利用者数によって最適解が大きく変わるからです。

  • CPU vs GPU:おおまかな速度イメージと「向いているタスク」の違い
  • クラウドAPI vs ローカルOllama(CPUサーバー)の年間コスト比較
  • 「CPUオンリー継続」か「GPU/クラウド追加」かを決めるチェックリスト
  • GPUマシン・クラウドを検討する際の具体的な選択肢

CPU vs GPU:おおまかな速度イメージと「向いているタスク」の違い

同じ7B〜14BクラスならCPUの推論速度は概ね5〜20TPS、GPUは50〜200TPSで数倍〜十数倍の差が出ます

これはCPU推論がメモリ帯域に律速されやすいのに対し、GPUは行列演算を大規模並列で回せるためです。

コミュニティ報告では「CPU 7B: 5〜20TPS」「GPU 7B: 50〜200TPS」というレンジ感が妥当とされます(参考: Ollama Docs: Hardware supportReddit: AVX-512対応の検証スレッド)。

用途で見ると、CPUは「軽めの要約・社内チャット」など低並列で広く薄く使う場面に強みがあり、GPUは「同時ユーザー多数」「エージェントや長文RAGの大量トークン消費」に圧倒的に有利です。

目安を下表にまとめます。

環境想定TPS(7B)向いているタスク
CPUオンリー(Ryzen 9/AVX2-512, DDR5)5〜20社内Q&A、議事録要約、低並列の日常利用
GPU(例: RTX 4070クラス)50〜200多数同時アクセス、エージェント、長文RAG・コード生成の高負荷

TPSはあくまで目安であり、量子化やプロンプト長、メモリ構成で変動します。

クラウドAPI vs ローカルOllama(CPUサーバー)の年間コスト比較

50名規模で月2,500万トークンなら、クラウドAPIは年間約$1,500、ローカルCPUサーバーは初年度約$1,650・2年目以降$150で、おおむね1年で損益分岐に達します。

従量課金のクラウドは小規模や突発的な利用に相性が良い一方、恒常的に大量トークンを使うほどローカルの固定費モデルが効きます。

前提を下表に整理します(GPT-4クラス 入出力平均$5/1M tokens、サーバー: Ryzen 9+64GB RAM+1TB SSD)。

年度クラウドAPI(GPT-4o想定)ローカルOllama(CPUサーバー)備考
1年目$1,500$1,650本体$1,500+運用$150
2年目$1,500$150電気代・保守のみ
3年目$1,500$150同上

プライバシー要件やレイテンシ要件もローカルの価値を押し上げます(参考: Skywork AI: Ollamaコスト分析Ollama 公式ドキュメント)。

一方で、最先端モデルの品質や一時的な負荷変動への柔軟性はクラウドが有利で、ハイブリッド構成が実務では現実的です。

「CPUオンリー継続」か「GPU/クラウド追加」かを決めるチェックリスト

判断を迷ったら、以下のチェックリストでYes数を数えるのが最短です

Yesが多いほど、GPU追加やクラウド併用の優先度が高まります。

CPU継続は「軽い処理×少人数×コスト重視」で最適化しやすい構図です。

逆に、待ち時間や精度のボトルネックが業務生産性を下げているなら早期の切り替えが投資対効果を生みます。

判断は段階的なハイブリッド移行を基本とし、全切り替えを前提にしないのが安全です。

  • 応答待ち時間が30秒を超えるタスクが日常的にある
  • 利用ユーザー数が10人以上に増えそう
  • 社外送信が制限される機密データを扱う
  • モデルサイズ14B以上を常用したい
  • 長文コンテキスト(>32k)を頻繁に使う
  • RAGで大量ドキュメントを読み込むことが多い
  • 負荷が一定で予算を予測しやすくしたい
  • Yes 0〜2: CPUオンリー継続+設定最適化で十分
  • Yes 3〜4: 単一GPUのローカル増設 or クラウドAPIを一部併用
  • Yes 5以上: GPUサーバー or マネージドGPUへの本格移行を検討

GPUマシン・クラウドを検討する際の具体的な選択肢

次の一歩は「ローカルGPU」「GPU付きVPS/クラウド」「有料LLM/API」の3ルートから選ぶのが実務的です

ローカルGPUはRTX 4070〜4090とRAM 64GB程度のワークステーションで、低レイテンシとデータ主権が必要な内製ワークに向きます。

GPU付きVPS/クラウドは初期費用を抑えつつ拡張性を確保したい場合に適しており、Ollama対応をうたうマネージドも選択肢です(参考: Ollama Cloud)。

有料LLM/APIは最新モデル品質を素早く享受でき、特定業務だけをクラウドに逃がすハイブリッドで費用対効果が出ます。

選び方の軸は、月間トークン量・同時接続数・VRAM/RAM要件・データ方針・レイテンシ許容度です。

安全な社内利用のためのOllamaセキュリティと運用の注意点(CPU/ GPU共通)

当セクションでは、社内でOllamaを安全に使うためのセキュリティ設定と運用の勘所を整理します。

理由は、Ollama自体はプライバシーファースト設計である一方、初期設定のまま公開すると不正利用のリスクが高まるからです。

  • Ollamaはデータを外部送信しないが、ネットワーク公開には注意が必要
  • 社内サーバーとして使うときの基本構成:リバースプロキシ+VPN/VLAN
  • Dockerコンテナ+Open WebUIでの運用イメージ
  • モデルライセンスと社内規程:商用利用・データ取り扱いのチェックポイント

Ollamaはデータを外部送信しないが、ネットワーク公開には注意が必要

結論は、Ollamaはローカル完結で安心だが、ポート11434の安易な公開は厳禁ということです。

Ollamaはモデル取得時を除き、プロンプトや出力を外部へ送信しない設計です(参考: Ollama’s documentation)。

一方で認証は標準搭載されていないため、ポートを開放すると誰でもAPIを叩ける状態になります(参考: UpGuard)。

過去にはファイル情報が読み取られる脆弱性も報告されており、最新バージョンへの更新は必須です(参考: Oligo Security、参考: Ridge Security)。

社内の広いセグメントにそのまま公開する運用も危険で、最小権限の原則に反します(参考: NSFOCUS)。

CPUオンリー運用でもGPU運用でも、求められるネットワーク対策は同じです。

生成AI全般の安全策は次の記事も参考になります(参考: 【2025年最新】生成AIのセキュリティ完全解説)。

社内サーバーとして使うときの基本構成:リバースプロキシ+VPN/VLAN

結論は、Ollamaはローカルホストで待ち受け、前段に認証付きのリバースプロキシを置き、VPNやVLANで到達経路を限定する構成が安全ということです。

理由は、Ollamaに認証がないため、プロキシでID基盤連携やIP制限を付与し、ゼロトラストに近づけられるからです。

まずOllamaはローカルバインドに固定します。

# 例: systemdのEnvironmentやシェルで指定
export OLLAMA_HOST=127.0.0.1:11434
ollama serve

次にNginx等でベーシック認証やOAuth2、IP許可リストを適用し、TLS終端も担わせます。

# Nginxの例(概略)
server {
  listen 443 ssl;
  server_name ollama.example.local;
  auth_basic "Restricted";
  auth_basic_user_file /etc/nginx/htpasswd;
  location / {
    proxy_pass http://127.0.0.1:11434/;
    proxy_set_header Host $host;
  }
}

外部接続は必ず社内VPN経由にし、特定VLANのみにルーティングしてください(参考: Ollama API docs)。

構成イメージは次の図のとおりです。

利用者PC → VPN → リバースプロキシ(認証・TLS・IP制限)→ 127.0.0.1で待ち受けるOllama の社内構成図。インターネット直公開は禁止で、管理者は最小権限で運用する様子を示す。

Dockerコンテナ+Open WebUIでの運用イメージ

結論は、OllamaとOpen WebUIをDockerで束ね、ブラウザから使える“社内版ChatGPT”ポータルとして提供すると現場が使いやすいということです。

理由は、ユーザー管理やチャット履歴、RAGなどの機能をOpen WebUIが備え、運用はボリュームと環境変数で再現可能だからです(参考: Open WebUI Docs)。

docker-composeの最小例を示します。

services:
  ollama:
    image: ollama/ollama:latest
    environment:
      - OLLAMA_HOST=0.0.0.0:11434
    ports:
      - "127.0.0.1:11434:11434"  # 外部公開しない
    volumes:
      - ollama:/root/.ollama
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    depends_on:
      - ollama
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    ports:
      - "8080:8080"
    volumes:
      - openwebui:/app/backend/data
volumes:
  ollama:
  openwebui:

実サービスでは前段にNginx等を挟み、SSOやIP制限を追加してください。

導入の全体像は次の記事も参考になります(参考: 2025年版:ローカル環境でAIを実行するベストな方法、参考: 【2025年版】Ollamaコマンド完全ガイド)。

CPUサーバーでも十分に運用可能なので、まずは部門内PoCから段階導入を進めましょう。

モデルライセンスと社内規程:商用利用・データ取り扱いのチェックポイント

結論は、正式導入前にモデルごとのライセンス条項と自社ポリシーを必ず突き合わせることです。

理由は、LlamaのMAU条件や出力の再学習禁止、MistralのApache 2.0など、禁止事項や条件がモデルで異なるためです。

代表的な確認観点を次にまとめます。

観点確認の要点
商用可否・MAU条件自社規模と利用形態が条項に適合するか
再配布・派生物重み再配布や再量子化の可否
出力の二次利用学習データとしての利用可否
ファインチューニング許可条件と公開範囲
ログ・個人情報保存期間と匿名化の扱い

根拠文書は一次情報を必ず参照してください(参考: Llama 3 License、参考: Ollama MIT License、参考: Elestio(マネージドOllamaとコンプライアンス))。

社内教育や規程整備は次の関連記事も参考にしてください(参考: オープンソースLLM活用の戦略ガイド、参考: LLMベンチマーク完全ガイド)。

最終的には情報システムと法務が合議し、用途別のホワイトリストと運用手順を文書化してから展開してください。

段階的な導入ステップ:CPUから始めて必要に応じてスケールアップ

当セクションでは、Ollamaを「CPUオンリーから始め、需要に応じてチーム共有やGPU/クラウドへ拡張する」段階的な導入パスを解説します。

理由は、CPU推論の実用性が高まった今、いきなり高価なGPU投資を行うよりも、小さく始めてユースケースと負荷を見極める方がコストとセキュリティの両面で合理的だからです。

  • ステップ1:手元PCで7Bモデルを試し、業務への“ハマりどころ”を探る
  • ステップ2:チーム用のCPUサーバー+Open WebUIで“小さな社内AI”を作る
  • ステップ3:GPU/クラウドと組み合わせたハイブリッド構成へ
  • ステップ別のおすすめアクションと参考リンクまとめ
CPUオンリー(手元PC)→CPUサーバー+Open WebUI→GPU/クラウド併用の3段階ステアケース図。各段に用途例(要約・Q&A・外部顧客ボット)とセキュリティ要素(VPN/リバースプロキシ)を日本語で記載。

ステップ1:手元PCで7Bモデルを試し、業務への“ハマりどころ”を探る

まずはコストゼロの手元PCで、Llama 3.1 8BやMistral 7Bなどの7B級モデルをCPUオンリーで試し、業務で効く場面を1〜2週間で見極めます。

理由は、Ollamaはローカル完結で動作し、OpenAI互換APIや豊富なモデルライブラリがすぐ使えるため、最小の準備で実務検証に入れるからです(参考: Ollama Docs: API Introduction)(参考: Ollama Library)。

例えばメール下書き、議事録要約、要件定義のたたき台作成、軽いコード補助は7B前後でも十分に効果が出やすく、CPUでも待ち時間は許容範囲になりやすいです。

筆者のPoCでは、週次会議の議事録要約とFAQテンプレート作りを対象業務に選び、プロンプト雛形を整備してからパイロット運用へ移行する流れが最短でした。

プロンプトの型づくりや運用Tipsは、社内ナレッジ化しつつ、より高度な比較は社外の体系的リソースも併用すると効率的です(例: 生成AI 最速仕事術)。

手応えが得られたら、次はチームで共有できる小規模サーバー化を検討します。

ステップ2:チーム用のCPUサーバー+Open WebUIで“小さな社内AI”を作る

次はメモリ64GB級のCPUサーバーまたは高性能デスクトップを1台用意し、Open WebUIを前面に置いてチーム利用へ拡張します。

理由は、ブラウザGUIとユーザー管理、RAGなどの機能を備えたOpen WebUIを使うと、非エンジニアでもすぐ活用でき、社内標準ツール化に進めやすいからです(参考: Open WebUI Docs)。

この段階で初めてネットワークと認証を本格設計し、Ollama本体はローカルリッスン、前段にリバースプロキシ+VPNで保護する方針が安全です(参考: UpGuard: Securing Exposed Ollama)。

検討チェックリストは次の通りです。

  • サーバー予算とサイジング(RAM 64GB推奨、NVMe、DDR5/デュアル以上)
  • ネットワーク経路(VPN/VLAN、外部公開なし、IP制限)
  • リバースプロキシの認証方式(Basic/OAuth2)と監査ログ
  • アップデート運用と脆弱性対応(CVE監視、ロールバック手順)
  • 問い合わせ対応・運用ルール(利用可能モデル、RAGデータの扱い)

ステップ3:GPU/クラウドと組み合わせたハイブリッド構成へ

ユースケースと負荷の実態が見えたら、重い処理だけGPUマシンやクラウドAPIに逃がすハイブリッド構成にすると全体最適が図れます。

理由は、社内Q&Aや定型要約はCPUのOllamaで十分でも、外部顧客向けの高精度チャットや大規模分析はGPU/クラウドの方が品質・SLAの面で有利なためです。

具体例として「社内Q&A・通常要約=Ollama(CPU)、高度推論・画像/音声混在・大規模分析=GPU/クラウド」という役割分担が効果的です(参考: Ollama Docs: Hardware support)。

アプリ層はOpenAI互換APIで抽象化しておくと、バックエンド切り替えが容易になり、将来の乗り換えコストを抑制できます(参考: Ollama Docs: API Introduction)。

クラウド比較の観点はモデル品質・料金・レイテンシ・データ規約が要点で、当サイトの比較記事も意思決定に役立ちます(例: Gemini API vs ChatGPT API徹底比較)。

段階ごとにKPI(速度・コスト・満足度)を見直し、最小コストで必要十分な精度を得る“逃がし方”をチューニングするのが成功の鍵です。

ステップ別のおすすめアクションと参考リンクまとめ

最後に、3ステップの推奨モデル・ハードウェア・参考リンクを一望できる形に整理します。

結論としては、「個人の手応え→小さな社内AI→ハイブリッド最適化」という順に広げると、学習コストと投資を最小化しやすいです。

各ステップでの行動指針とリンクを以下の表にまとめます。

次の一手がひと目で分かるように、目的・モデル・スペック・導線をマトリクス化して実装までの距離を縮めてください。

フェーズ目的推奨モデル推奨スペック参考リンク
ステップ1(個人)業務で効く場面の発見Llama 3.1 8B / Mistral 7BRAM 16–32GB、NVMe、AVX2以上Ollama LibraryOllamaコマンドローカルでAIを実行する方法
ステップ2(チーム)小さな社内AIの提供Llama 3.1 8B / Qwen 2.5 14BRAM 64GB、NVMe、DDR5/デュアル以上Open WebUIOllamaの安全化RAG構築ベストプラクティス
ステップ3(ハイブリッド)負荷と品質の最適化用途別にCPU/Ollama+GPU/クラウドGPUノード or API契約を併用Ollama APIOllama API徹底ガイド主要クラウド比較

まとめ:CPUから始めるOllama、次の一手へ

結論は明快です。CPUだけでも7B〜14Bは実用域。鍵はAVX-512/DDR5と十分なRAM、そして量子化とnum_thread・num_gpu=0などの適切設定です。

加えて、モデル別の“実用ライン”とGPU/クラウドへの切替基準、リバースプロキシ等の安全運用を押さえれば、段階導入でROIは早期回収できます。

まずは今お使いのPCにOllamaを入れて7BクラスをCPUオンリーで試し、応答速度と業務フィットを体感。必要に応じてGPU導入・クラウド併用・マネージド運用へ進みましょう。

実務活用の型は生成AI 最速仕事術で、体系学習はDMM 生成AI CAMPが最短ルート。関連記事からGPU/クラウド比較やOpen WebUI導入も続けてどうぞ。