AIじゃないよ

Gemini 3.1 Pro 完全ガイド:Opus 4.6の半額以下でベンチマーク最強の新モデル

当サイトはアフィリエイト広告を一部掲載しています。
Geminiアプリのモデル選択画面。Proモードが選択され、「3.1 Proによる高度な数学とコード」と説明が表示されている

Google DeepMindは2026年2月19日、Gemini 3シリーズの改良版「Gemini 3.1 Pro」をパブリックプレビューとしてリリースした

AIが未知のパターンを見抜けるかを測る抽象推論ベンチマーク「ARC-AGI-2」で、前モデルの2倍超となる77.1%を記録し、独立評価機関Artificial Analysisの総合指数でも全モデル中1位を獲得した。

性能は大幅に向上しているが、API価格は据え置きだ。

入力$2.00/100万トークン、出力$12.00/100万トークンという設定は、Claude Opus 4.6(入力$5.00、出力$25.00)と比べて入力コスト60%オフ、出力コスト52%オフという計算になる。

性能が上がっても価格は変わらないという、APIユーザーにとっては理想的なアップデートである。

Geminiアプリでは、無料ユーザーも利用可能となっており、Google AI StudioやGemini CLIからもすぐに試せる。

本記事では、今回のアップデートの概要をまとめるとともに、実際に利用するための手順まで、スクリーンショットを交えて非エンジニアにも分かりやすく解説する。



Gemini 3.1 Proの概要:推論力・信頼性・エージェント性能を底上げ

Gemini 3.1 Proは、2025年11月リリースのGemini 3 Proをベースに改良されたモデルだ。Geminiシリーズとして初めて「.1」刻みのバージョン番号が採用されている。改善の柱は大きく4つ。ベンチマークの具体的な数値は次節で詳しく比較するが、まず全体像を整理しておこう。

  • 推論能力の飛躍: 抽象推論、科学知識、コーディング、エージェントタスクのいずれでも前モデルから大幅にスコアが向上し、多くの指標でOpus 4.6やGPT-5.2を上回った
  • 3段階の思考レベル: LOWとHIGHの2段階だった思考レベルにMEDIUMが追加された。API仕様によれば、HIGHではGemini Deep Thinkの「ミニ版」として動作し、1つのモデル内でタスクの複雑さに応じた思考の深さを選べる
  • 幻覚の大幅削減: Artificial Analysisの評価によれば、幻覚率が88%から50%へと38ポイント改善。知識量の向上よりも、「わからないことをでっち上げなくなった」というキャリブレーション改善が主因とされている
  • エージェント機能の強化: MCPワークフロー、Web検索、長期的な知識労働タスクなど、道具を使いこなすマルチステップ業務の性能が軒並み向上した

API仕様面では、MarkTechPostの技術記事によれば以下の変更も加わっている。

  • ファイルサイズ上限が20MBから100MBへ拡大
  • YouTube URLを直接メディアソースとして指定可能に
  • Cloud Storageバケットやプリサインド付きプライベートDB URLに対応

コンテキスト窓(100万トークン)や出力上限(65,536トークン)、対応モダリティ(テキスト・画像・動画・音声・PDF)は3 Proから据え置きだ。

ベンチマーク徹底比較:Opus 4.6, GPT-5.2を全体的に上回る

ベンチマークの数値だけを並べても、それが何を意味するのかがわからなければ判断材料にならない。

ここではGoogle DeepMindのモデルカードに掲載された主要ベンチマークについて、「なにを測っているのか」を補足しながらポイントを整理していく。

推論・知識系

最も目を引くのはARC-AGI-2だ。前モデルの31.1%から77.1%へと2倍以上のジャンプを記録している。このベンチマークは「初見の論理パズルを解けるか」を測るもので、学習データの暗記では太刀打ちできない。Opus 4.6(68.8%)やGPT-5.2(52.9%)にも大差をつけており、今回のアップデートの目玉と言える。

一方、ツールを使える条件のHLEではOpus 4.6(53.1%)がトップに立ち、Gemini 3.1 Pro(51.4%)を上回っている点は見逃せない。「素の推論力」と「道具を使いこなす力」は別の能力であり、この差が後述するコミュニティ評価の温度差にもつながっている。

ベンチマーク測定内容Gemini 3.1 ProGemini 3 ProOpus 4.6GPT-5.2
HLE(ツールなし)各分野の専門家が作成した超難問(テキスト+マルチモーダル)44.4%37.5%40.0%34.5%
HLE(ツールあり)上記+検索・コード実行が使える条件51.4%45.8%53.1%45.5%
ARC-AGI-2初見の論理パズル。学習データの暗記では解けない77.1%31.1%68.8%52.9%
GPQA Diamond大学院レベルの科学的知識問題94.3%91.9%91.3%92.4%
MMMLU多言語での幅広い知識Q&A92.6%91.8%91.1%89.6%

コーディング系

SWE-Bench Verifiedでは3社のフラッグシップが80%台でほぼ横並びとなり、「実際のGitHubイシューを直せるか」という点では差がつきにくくなってきた。

差が開くのは競技プログラミング(LiveCodeBench Pro)で、Gemini 3.1 ProのElo 2887はGPT-5.2の2393を約500ポイント上回る。アルゴリズム的な難問での推論力の高さがここにも表れている。

ベンチマーク測定内容Gemini 3.1 ProGemini 3 ProOpus 4.6GPT-5.2
SWE-Bench Verified実際のGitHubイシューを修正するタスク80.6%76.2%80.8%80.0%
SWE-Bench Proより多様なコーディングタスク54.2%43.3%55.6%
Terminal-Bench 2.0ターミナル上でのエージェント型コーディング(Terminus-2ハーネス)68.5%56.9%65.4%54.0%
LiveCodeBench Pro競技プログラミング(Elo評価)288724392393
SciCode科学研究向けのコーディング59%56%52%52%
注意
Terminal-Bench 2.0では、各社が自社最適のハーネスを用いた場合にスコアが大きく変わる。GPT-5.3-Codexは自社ハーネスで77.3%を記録しており、Gemini 3.1 Proの68.5%(Terminus-2ハーネス)を上回る。ベンチマーク比較では「どのハーネスで測定したか」に注意が必要である。

エージェント・ツール利用系

ベンチマーク測定内容Gemini 3.1 ProGemini 3 ProOpus 4.6GPT-5.2
APEX-Agents長期間のプロフェッショナルタスク(実際の知識労働に近い)33.5%18.4%29.8%23.0%
MCP AtlasMCPプロトコルを使ったマルチステップワークフロー69.2%54.1%59.5%60.6%
BrowseCompエージェント型Web検索85.9%59.2%84.0%65.8%
GDPval-AA実務的なエキスパートタスク(Elo評価)1317119516061462
τ2-bench(小売)ツール利用を含むエージェントタスク90.8%85.3%91.9%82.0%

APEX-AgentsやMCP Atlas、BrowseCompではGemini 3.1 Proが軒並みトップを取っている。特にBrowseCompは59.2%から85.9%への跳躍で、Web上の情報を自律的に探索する能力が一気に引き上げられた形だ。

ただし、GDPval-AAだけは例外で、Opus 4.6(1606 Elo)がGemini 3.1 Pro(1317 Elo)を約300 Elo引き離している。

GDPval-AAは「実務的なエキスパートタスク」を測るもので、ベンチマーク的なパズルではなく現実の知識労働に近い。「ベンチマークは強いが実務ではそこそこ」という初期ユーザーの体感に近い結果かもしれない。

補足
LMArenaの人間投票リーダーボード(2月19日時点)では、テキスト部門でClaude Opus 4.6がGemini 3.1 Proを4ポイント上回って1位(1504 Elo)を維持している。コード部門でもOpus 4.6がリードしている。Arenaは人間の主観投票ベースであり、「正確さ」よりも「見た目の良さ」が有利に働く場合があるものの、ユーザーの体感としてはOpus優位なのも事実だ。

競合モデルとの価格・性能を踏まえた使い分け

ベンチマークの数値だけでなく、価格や速度を含めた総合的なポジションを比較してみる。

まず、Gemini 3.1 Proは、Opus 4.6やGPT-5.2と比べて大幅にコストが安い。

Artificial Analysisの評価でも、同機関の総合ベンチ(10項目の評価セット)を全モデルで実行した場合のコストは、Gemini 3.1 Proが$892に対し、Opus 4.6やGPT-5.2は$1,800超だったという。

同等のタスクを、半額以下で実行できる計算になる。

項目Gemini 3.1 ProClaude Opus 4.6
入力($/100万トークン)$2.00$5.00
出力($/100万トークン)$12.00$25.00
コンテキスト窓100万トークン20万トークン
最大出力65,536トークン128,000トークン
出力速度約107トークン/秒

以下のような使い分けが合理的だろう。

  • Gemini 3.1 Proが向いているケース: 大量のトークンを消費するバッチ処理、100万トークンのロングコンテキストが必要な分析、MCP連携のワークフロー、コストを抑えたいプロトタイピング
  • Claude Opus 4.6が向いているケース: 複雑なエージェント型の実務タスク(GDPval-AAで大差)、ツールを組み合わせた高度な問題解決(HLE+ツールで1位)、コーディングの実行品質を最重視する場面
  • 併用で得意分野を使い分ける: 「Geminiで設計・推論、Claudeで実行」というハイブリッド戦略を採る開発者も増えている

無料で使える!Gemini 3.1 Proの始め方ガイド

Opus 4.6やGPT-5.2と同等以上のベンチマーク性能を持つモデルが、Googleアカウントさえあれば無料で使える。

トップモデルは、有料プラン限定であることも多い中、これは大きなアドバンテージだ。

Geminiアプリ(最も手軽)

Geminiモバイルアプリのモデル選択画面。高速モード、思考モード、Proの各モードが一覧で表示されている

最も手軽なのは、gemini.google.comにGoogleアカウントでログインする方法だ。追加の登録や設定は一切不要で、すぐにGemini 3.1 Proとの対話を始められる。

無料ユーザーにはレート制限(一定時間あたりのメッセージ数の上限)があるが、日常的な質問や文章作成であれば十分に実用的だ。Google AI ProやUltraプランに加入すると、この上限が大幅に緩和される。

Google AI Studio(開発者以外にもおすすめ)

Google AI Studioのモデル選択パネル。Gemini 3.1 Pro Previewの価格やトークン上限などの仕様が一覧表示されている

Google AI Studioは、Googleが提供するAIモデルの実験・開発環境だ。

「開発者向け」と銘打たれているが、Googleアカウントだけで無料で使え、Geminiアプリにはない細かな制御ができるため、一般ユーザーにもメリットが大きい。

最大の利点は、思考レベル(Thinking Level)をLOW / MEDIUM / HIGHの3段階から選べることだ。Geminiアプリではこの選択肢がなく、モデルが自動で思考の深さを決める。「簡単な質問には素早く、難しい問題にはじっくり考えさせたい」という使い分けをしたいなら、AI Studioを試す価値がある。

Google AI Studioの思考レベル設定画面。Low、Medium、Highの3段階から選択できるドロップダウンが赤枠で強調されている

また、システムインストラクション(AIの振る舞いを事前に指定する設定)やTemperature(出力のランダム性)といったパラメータも自由に調整でき、同じプロンプトでも出力の質や傾向を細かくコントロールできる。

ヒント
思考レベルの使い分けの目安としては、単純な要約・翻訳はLOW、一般的な分析・コーディングはMEDIUM、複雑な推論・数学・科学系の問題はHIGHが適している。HIGHではDeep Think Miniとして動作するため、思考時間が大幅に長くなる(SVG生成テストでは323.9秒かかった事例もある)。コストと速度のバランスを見て選択したい。

その他の利用手段

上記2つ以外にも、用途に応じて以下の方法が用意されている。

  • Gemini CLI: ターミナルからgemini -m gemini-3.1-pro-preview "プロンプト"で直接呼び出せる。リリース初日から対応済み
  • Gemini API: 既存APIユーザーはモデルIDをgemini-3.1-pro-previewに変更するだけ。価格据え置きのため、コスト試算の変更も不要
  • NotebookLM: Google AI ProまたはUltraプランの加入者限定で利用可能

ベンチマーク結果と、初期ユーザーの反応のギャップ

開発者コミュニティの声を拾ってみると、ネガティブな声として、エージェント型タスクでの実行力不足が頻繁に指摘されている。

Hacker Newsでは、元Google社員(spankalee氏)が「推論とコード生成は素晴らしいが、実際にタスクを遂行する際にはClaude Opusに大きく劣る」として、以下のような問題を指摘している。

  • ファイル編集ツールを使わず、奇妙な方法でファイルを編集しようとする
  • 思考トークンに偏重し、ユーザーへの説明が不足する
  • ループに陥りやすく、前進できなくなる

ローンチ直後の不安定さも目立つ。単純な「hi」への応答に1分以上かかったり、エラーが頻発したりした。これはローンチ初日特有の問題である可能性が高いので、数日で解消されるだろう。

また、新しいGeminiのリリースは毎回、その時点のOpusをベンチマークで上回るが、実使用しているうちに結局Opusに戻ってしまう・・・というパターンは過去に筆者も体験しており、真の実力は、しばらく自分のユースケースに実投入しなければ見えてこない。

新機能:SVGアニメーション生成

リリース直後にX(旧Twitter)で最も話題となったのは、Gemini 3.1 ProによるSVGアニメーション生成の品質だ。

Google公式ブログでは、テキストプロンプトからWebサイトに直接埋め込めるアニメーションSVGを生成できることが紹介されている。

ピクセルベースの画像や動画と異なり、SVGはコードで構成されているため、どんなサイズに拡大しても劣化せず、ファイルサイズも極めて小さい。

「ペリカンが自転車に乗っている」プロンプトをあらゆるLLMに適用しているSimon Willison氏によるテストでは、脚の描写や魚のバスケットまで描き込まれた高品質なSVGが生成されている。

ベンチマーク最強、実務はこれから:Gemini 3.1 Proの現在地

ベンチマークでは文句なしの結果だ。ARC-AGI-2での2倍超の改善、Artificial Analysis総合指数1位、そしてOpus 4.6の半額以下という価格設定。数字だけ見れば、現時点で最もコストパフォーマンスの高いフラッグシップモデルと言える。

ただし、本記事で見てきたとおり、ベンチマークの強さがそのまま実務での強さに直結するわけではない。GDPval-AAではOpus 4.6に約300 Elo差をつけられ、コミュニティからはエージェント型タスクでの実行力不足も指摘されている。「推論力は高いが、道具を使いこなして仕事を完遂する力はまだ発展途上」というのが現時点での評価だろう。

Gemini 3.1 Proは現時点で「パブリックプレビュー」の位置付けであり、Google公式ブログでは「GA(一般提供)は近日中」としている。Preview段階では以下の点に留意したい。

  • 仕様変更やAPIの破壊的変更が入る可能性がある
  • 本番環境での稼働安定性はGA後に改めて評価すべき
  • 知識カットオフが2025年1月であり、最新の出来事には対応していない

GA版での安定性改善と、エージェント型タスクの実行力強化が今後の注目ポイントになる。Googleには自社開発のTPUインフラという構造的な優位性があり、低コストで高性能なモデルを提供し続けられる土台は整っている。

まずはGoogle AI StudioGeminiアプリで、自分のユースケースに合うかどうかを確かめてみてほしい。ベンチマークの数字以上に、自分の手で試した感触が最も信頼できる判断材料になるはずだ。

筆者プロフィール画像

この記事を書いた人 kumori

AIツール/アプリ/ガジェットを実際に検証し、具体のユースケースまで噛み砕いて解説しています。

  • 米国の大学院で統計学(修士)
  • Python・Rによるデータ分析
  • マーケティング/広告運用(TV〜Web、数十億規模PJのリード経験)



Make a comment

*
*
* (公開されません)