Ollamaを使って最新のGemma 4をWindowsでローカル実行してみよう

こんにちは。 2026年4月、Googleから待望の最新オープンモデルGemma 4がリリースされました。本記事では、Windows環境のOllamaを使って、効率的なパラメータ設計が特徴の「e4b」モデルを動かす方法を簡潔に解説します。

1. Ollamaをダウンロードする

まず、ローカルLLM実行環境の標準ツールであるOllamaを公式サイトから取得します。

公式サイト：ollama.com
「Download for Windows」からインストーラーをダウンロードしてください。

2. Ollamaをインストールする

ダウンロードした OllamaSetup.exe を実行し、「Install」ボタンを押すだけで完了です。設定は非常にシンプルで、初心者の方でも迷うことはありません。

3. Gemma 4について

Gemma 4は、Google DeepMindが公開した次世代のオープンモデルです。新技術のPLE（Per-Layer Embeddings）により、少ないパラメータ数で高い性能を発揮する「Effectiveパラメータ」という概念を導入しています。また、128K〜256Kの長いコンテキストウィンドウをサポートしています。

4. Gemma 4のモデルの種類と特長

用途に合わせて以下のモデルが選択可能です。

gemma4:e2b：エッジデバイス・モバイル向け。
gemma4:e4b：デスクトップ利用に最適な標準バランスモデル。
gemma4:26b：推論力に優れたMoEモデル。
gemma4:31b：最高性能を誇るフラッグシップモデル。

5. Gemma 4のモデルのダウンロード

コマンドプロンプトを開き、今回使用する e4bモデル を取得します。

ollama pull gemma4:e4b

pulling manifest
pulling 4c27e0f5b5ad: 100% ▕██████████████████████████████████████████████████████████▏ 9.6 GB
pulling 7339fa418c9a: 100% ▕██████████████████████████████████████████████████████████▏  11 KB
pulling 56380ca2ab89: 100% ▕██████████████████████████████████████████████████████████▏   42 B
pulling f0988ff50a24: 100% ▕██████████████████████████████████████████████████████████▏  473 B
verifying sha256 digest
writing manifest
success

6. Ollamaで使用できるモデルを確認する

ダウンロードが完了したモデルの一覧を確認します。

ollama list

NAME          ID              SIZE      MODIFIED
gemma4:e4b    c6eb396dbd59    9.6 GB    8 minutes ago

7. Ollamaでgemma4のe4bモデルを使用して実行する

モデルを起動して対話を開始します。

ollama run gemma4:e4b

>>> Send a message (/? for help)

「こんにちは」とメッセージを送ってみます。

>>> こんにちは
Thinking...
Thinking Process:

1.  **Analyze the input:** The user said "こんにちは" (Konnichiwa), which is a standard Japanese greeting meaning
"Hello" or "Good afternoon."
2.  **Determine the goal:** The user is initiating a conversation or simply greeting me. I need to respond
appropriately, politely, and conversationally.
3.  **Formulate the response (in Japanese):**
    *   A reciprocal greeting is necessary: "こんにちは" (Konnichiwa).
    *   Adding a polite follow-up question is natural for continuing the conversation: "どのようにお手伝いできますか
？" (Dono yō ni otetsudai dekimasu ka?) - *How may I help you?* or "何かご用ですか？" (Nanika goyō desu ka?) -
*Do you need something?*
    *   A simple, warm welcoming response is best.

4.  **Select the final response:** A combination of greeting and offering help is standard practice for AI
conversational models.

    *   *Draft:* こんにちは。どのようなご用件でしょうか？ (Konnichiwa. Dono yō na goyōken deshou ka?) - Hello.
What can I do for you?
    *   *Refinement (More friendly/natural):* こんにちは！何かお手伝いできることはありますか？ (Konnichiwa! Nanika
otetsudai dekiru koto wa arimasu ka?) - Hello! Is there anything I can help you with?

5.  **Final check:** The response is polite, responsive, and directs the conversation forward.
...done thinking.

こんにちは！ 😊

何かお手伝いできることはありますか？お気軽にご質問やご相談をしてくださいね。

きれいに回答してくれましたね。しかし、思考プロセスも表示されていまいました。ここで「思考プロセスを表示しないで」とメッセージを送ると以降は回答のみ表示されるようになります。

>>> 思考プロセスを表示しないでください
かしこまりました。

今後は、**思考プロセスを一切表示せず、結論や回答となるテキストのみを出力します**。

ご質問をお待ちしております。

※それでも誤って思考プロセスが表示されることがあるみたいです。。。

対話を終了するときは /bye と入力してください。

>>> /bye

これで、最新のAI推論をあなたのPCで体験できるようになりました。技術の進歩は本当に早いですね。ぜひ活用してみてください。

(おまけ) gemma4のe4bモデルで実行できなかった場合

ollama run gemma4:e4b
Error: 500 Internal Server Error: model requires more system memory (9.9 GiB) than is available (6.3 GiB)

このエラーは「モデルを動かすのに必要なメモリ（約9.9 GiB）が、今のPCの空きメモリ（約6.3 GiB）を超えちゃっている」っていう意味です。このエラーが出た場合はより軽量なモデル(e2b)を試してみよう。一番軽量な「e2b」なら、メモリ消費をぐっと抑えられるから、今の環境でも動く可能性が高いよ。