「Gemini 2.0」関連の新モデルリリースの勢いが止まらない。
Googleは、2024年12月19日、新たな実験的モデル「gemini-2.0-flash-thinking-exp-1219」を発表した。
これは、先週登場したばかりの最新モデル「Gemini 2.0 Flash」が、人間に近い思考をする「推論」機能を手に入れた「Gemini 2.0 Flash Thinking」モデルである。
OpenAIが開発するトップ推論モデル「o1」と同じく、AIが回答を生成する前に「考える」ステップを踏むことで、より複雑な問題の解決が可能になったものだ。
その性能は極めて高く、「Gemini 2.0 Flash Thinking」は、記事執筆現在、ユーザー投票による大規模言語モデルの性能ランキングサイト Chatbot Arena の全ジャンルで1位に君臨している。
驚くべきことに、現在「Gemini 2.0 Flash Thinking」は、誰でも無料で利用することができる。o1クラスの超高性能なモデルを、無料で利用できるのはありがたすぎる。
本記事では、Thinkingモデルの詳細をまとめるとともに、誰でも簡単に無料で使ってみる方法、また実際にThinkingモデルに高度なプロンプトを与えた結果のパフォーマンスなどを紹介していく。
Gemini 2.0 Flash Thinking の概要
Googleは2024年12月に入り、次々と強力なAIモデルを投入している。
まずは12月6日、突如としてChatbot Arenaで1位を独占し話題となった「gemini-exp-1206」をリリース。その直後の12月11日には、新モデルシリーズの「Gemini 2.0」を発表し、第1弾となる「Gemini 2.0 Flash」を公開した。
そして12月19日にリリースされたのが、今回の「Gemini 2.0 Flash Thinking」である。
回答を生成する前に「考える」ステップを挟む推論モデルというアプローチは、OpenAIのo1
モデルや、それに続くQwenのQwQ
などによって採用されてきた。GoogleのGeminiもまた、この推論アプローチを用いたモデル群の一員となったということだ。
Googleの公式ドキュメントによれば、「Gemini 2.0 Flash Thinking」は、回答の一部として「thinking process(思考過程)」も生成するようにトレーニングされており、通常のGemini 2.0 Flashに比してより強力な推論能力を身につけているという。
例えば、Gemini 2.0 Flash Thinking に適当な計算問題を聞いてみると、回答とは別に、「Thoughts」というレスポンスが得られ、思考過程が表示される。
Gemini 2.0 Flash Thinking を無料で使う方法
Thinking Mode は、現在 Google AI Studio で試すことができるほか、Gemini API を介して直接利用することも可能である。
最も簡単にGemini 2.0 Flash Thinkingを利用できるのは、「Google AI Studio」というGoogleが提供する開発者向けのGeminiのテストツールである。
開発者向けといっても、プログラミングの知識も不要で、Googleアカウントさえ持っていれば誰でも簡単に使えるので安心して欲しい。
まずは、Google AI Studio にアクセスし、Googleアカウントでログインする。
すると、以下のようなインターフェースが表示される。
左側のメニューの「Create new prompt」をクリックすると、Geminiとチャットができる画面が表示され、実質的にはChatGPTの様なチャットインターフェースとして使用することができる。
画面右側で、Geminiの設定をさまざまに変更することができ、どのモデルを使うかの選択や、出力するトークン数の上限などを設定できる。
モデル選択のプルダウンメニューで、「Gemini 2.0 Flash Thinking Experimental」を選択することで、Gemini 2.0 FlashのThinkingモードを利用することができる。
下部にGeminiに回答してほしい質問などを打ち込み、「Run」をクリックするだけで、AIによる回答が生成される。
Google AI Studio では、応答ウィンドウ内に「Thoughts」という新しいパネルが表示され、そこにモデルの思考プロセスが示される。
初期状態ではパネルは折りたたまれており、ヘッダーをクリックすることで展開できる。
例えば、単に「こんにちは」と打ち込んでみただけだが、Geminiがユーザーからの「こんにちは」を受け取った後、それが日本語の挨拶であり、日本語の挨拶を返すのが適切である、という思考を行った流れを覗き見ることができる。
様々なプロンプトでGemini 2.0 Flash Thinkingの実力を試す
Geminiの公式GitHubレポジトリにおいて、Gemini APIで「Gemini 2.0 Flash Thinking」を使用する方法を解説するGoogle公式のPythonクックブックが公開されている。
Google Colaboratoryを使って実際にコードを動かすこともできるので、興味のある人は触ってみることを勧める。
ここでは、公式クックブック内で紹介されている、Thinkingモデルのパフォーマンスを示す問題解決の事例のサマリーをいくつか紹介する。
思考プロセスを読んでみると、恐ろしくなるほどに、人間と似た様な思考プロセスを踏み、試行錯誤をして、回答に辿り着く様子が分かってとても面白い。
思考が「人間」すぎて恐怖…発想の転換が必要なクイズ問題に答える
Gemini 2.0 Flash Thinking は、画像の読み込みも可能なマルチモーダルなモデルである。
公式クックブックで示されている例の一つに、次のような、人間でも難しく感じるような画像によるクイズ問題がある。
数字の書かれたビリヤードボール4つの画像が与えられ、写真内のボールの数字を用いて、合計が「30」になるような3つの数字の組み合わせを考えろ、という問題だ。
なぞなぞのようなクイズ問題であるが、あなたは答えは分かるだろうか?Geminiの思考プロセスと、あなたの思考プロセスを比べる意味でも、一度じっくり考えてみてほしい。
Geminiには、画像とともに、「How do I use three of these numbers to sum up to 30?(これらの数字を3つ使って合計を30にするには?)」というプロンプトを与える。すると、9秒間考えた末に、見事に正解を導いてくれた。
正解は、写真に写っている「9」のボールをひっくり返して「6」にする、ということだ。
「Thoughts」タブを開くと、Geminiの思考の流れを覗き見ることができるが、この思考過程が読んでいてかなり面白かったので、以下で日本語に翻訳してみた。
Gemini 2.0 Flash Thinking が、どの様な思考プロセスで、正解に至るまでに試行錯誤を繰り返しているのかがよく分かる。
まさに、自分自身がクイズを解いている時と同じ様な思考ステップを踏んでおり、読んでいて鳥肌が立つ。
まずは色々な組み合わせを試してみる。
- 7 + 9 + 11 = 27 (足りない)
- 7 + 9 + 13 = 29 (足りない)
- 7 + 11 + 13 = 31 (多すぎる)
- 9 + 11 + 13 = 33 (多すぎる)
どうやら、これらの数字を普通に足し合わせるだけでは30にならないようだ。
<-----中略----->
少し視点を変えて考えてみる。数字そのものに何か仕掛けがあるのだろうか?
改めて数字を見てみよう。7、9、11、13。
ああ、もしかして何か単純なことを見落としているのかも。「この中から『3つの数字を使う』」としか書かれていない。必ずしも違う数字である必要はないんだ。
同じ数字を2回使うことはできるだろうか? 例えば…
- 7 + 7 + X = 30 => X = 16 (リストにない)
- 9 + 9 + X = 30 => X = 12 (リストにない)
- 11 + 11 + X = 30 => X = 8 (リストにない)
- 13 + 13 + X = 30 => X = 4 (リストにない)
同じ数字を3回使う場合はどうだろう?
- 7 + 7 + 7 = 21
- 9 + 9 + 9 = 27
- 11 + 11 + 11 = 33
- 13 + 13 + 13 = 39
<-----中略----->
この問題には何かトリックがあると考えるのが妥当かもしれない。一番ありそうなのは、数字の提示方法に隠されたトリックだ。数字はボールに印刷されている。
数字を視覚的に何か操作する方法はないだろうか?
もう一度、数字を見てみる。7、9、11、13。
もし、数字を回転させることができたら…? 「9」を逆さまにすれば「6」になる!
もしそうだとすれば、11 + 13 + 6 = 30。
制約から考えると、この視点での解法が最も有力そうだ。ボールという視覚的なヒントがあり、単純な足し算ではうまくいかないことから、視覚的な操作を示唆していると考えられる。
図形の画像を読み取って、複雑な面積問題を解く
次に、もう少しフォーマルな数学の問題の例を紹介する。
円と三角形が交わる領域の面積を計算するという複雑な思考を必要とする問題を、画像形式でアップロードする。
実際の画像は以下である。
この画像について、「What’s the area of the overlapping region?(重なっている部分の面積は?)」という質問を行う。
ステップバイステップで思考し、円の面積の全体が9πで、三角形が直角三角形であり、円のうち直角に囲まれた部分なので全体の1/4(90/360)、という正解を導いている。
筆者がGoogle AI Studioでこれを行った際、答えを出すのにかかった時間は、わずか12秒である。
人間が答えを聞くと簡単そうにも思えるが、ChatGPTでGPT-4oモデルに同じ問題を出してみると、Code Interpreterを使って細かい計算までやり始めたが、結局正解を出すことができなかった。
Gemini 2.0 Flash Thinkingは、少なくとも数学の図形問題においては、明らかにGPT-4oの推論能力を上回っている。
AI業界のトレンド:学習データの枯渇、推論モデルの競争激化
最近では、大規模言語モデルの学習に使用されるトレーニングデータが枯渇しており、各社のモデルの性能が頭打ちとなってきて、大規模言語モデルの進歩が停滞していると言われることも多くなってきた。
こうした状況下で、AIモデルの性能を改善するため、モデル自体の学習量を更に巨大にスケールさせるのではなく、「思考」する時間を設けるなどして回答生成時の計算量をスケールさせる、というアプローチが試行されている。
OpenAI の o1 モデル、Qwen の QwQ、DeepSeek の DeepSeek-R1-Lite-Preview など、各社がこの分野で新たなモデルを開発している。今回のGoogle Gemini 2.0 における Thinking Mode の登場は、この競争にGoogleも参戦することを示唆するものだ。
Claude 3.5 Sonnet以降の発表がないAnthropicや、オープンソースモデルLlamaを開発するMetaが、今後推論モデルの分野にどの様に参戦してくるか楽しみである。
なお、無料で使える Gemini 2.0 Flash Thinking だが、あくまで現在はまだ実験的なモデルであり、以下の制限事項が公式にアナウンスされている。
- 入力トークン数制限:32,000トークン
- 入力形式:テキストおよび画像のみ
- 出力トークン数制限:8,000トークン
- 出力形式:テキストのみ
- 組み込みツール利用不可(検索やコード実行など)