AIじゃないよ

Gemini 2.5 Pro 完全ガイド:現状世界1位の推論モデル、文字起こしや画像認識も可能!

当サイトはアフィリエイト広告を一部掲載しています。

2025年3月25日、Googleが新たなモデルシリーズ「Gemini 2.5」を発表し、第一弾となる「Gemini 2.5 Pro Experimental」をリリースした。

Gemini 2.5 Proは、人間による投票でAIモデルの性能を競うサイト「Chatbot Arena」でも、xAIのGrok-3や、OpenAIのGPT-4.5などの競合を抑えて世界トップに躍り出た。

特にコーディング分野の性能が前世代モデルと比べ伸びており、主要なベンチマークで、高度なコーディング性能で知られるClaude 3.7 Sonnetと同等または上回るスコアを記録している。

また、あまり知られていないGeminiの隠れ機能として、音声ファイルを読み込んで文字起こししたり、画像から情報を抽出する機能も有しており、議事録作成や書類のOCRなど、日常業務でも大いに活かせそうだ。

本記事では、登場したばかりの「Gemini 2.5 Pro Experimental」の詳細を解説するとともに、実際に無料で使う方法をいくつか紹介する。

本記事を参考に、Googleの最新AIモデルの力を体感してほしい。



最新の推論モデル Gemini 2.5 Pro Experimental の概要

「Gemini 2.5 Pro Experimental」は、昨年12月に登場したばかりの「Gemini 2.0」シリーズの次世代に当たるモデルである。

毎度Geminiシリーズは、最も高性能のPro、小型軽量のFlashなど、派生系がリリースされるが、現時点では最も高性能なProのみがお披露目された格好だ。

今回の「Gemini 2.5 Pro Experimental」は、「推論モデル(reasoning model)」としてリリースされている。

推論モデルとは、回答を生成する前に、モデルが自問自答する「思考」ステップを挟むモデル群のことだ。例えば、OpenAIのo3や、xAIのGrok 3のThinkモード、AnthropicのClaude 3.7 SonnetのExtended Thinkingモードなどが、同じ推論モデルである。

推論モデルの思考過程では、ユーザーからの質問を細かいステップに分解して、自問自答の経過をテキストとして生成しながら、ユーザーへの最終回答を検討する。例えば、以下はGemini 2.5 Proに、2の3乗の答えを尋ねた際の「思考」過程だ。

推論モデルは、通常のモデルと比べて回答の生成に時間がかかるが、論理の飛躍や間違いを防ぎ、より質の高い回答を生成できる特徴がある。

Gemini 2.5 Proは、そんな強豪ひしめく高性能な推論モデルたちの中でも、人間の投票で性能を競うサイト「Chatbot Arena」で、リリース当日からずっとトップに君臨している。

また、Googleのリリースによれば、高度な推論を必要とする一連のベンチマークでも、トップクラスのスコアを示している。GPQAやAIME 2025などの数学・科学ベンチマークのほか、何百人もの専門家によって設計された「Humanity’s Last Exam」ではトップのスコアを叩き出している。

出典:Google公式のリリース

特に注目に値するのは、ソフトウェアエンジニアリングやコーディングに関するベンチマークスコアの大きな改善だ。

例えば、実在するGitHub上のリポジトリから取得された現実社会のプログラミング問題で構成される「SWE-Bench Verified」では、Claude 3.7 Sonnetに次いで第2位の63.8%を達成。

また、複数のプログラミング言語を用いた非常に難易度の高いコーディング問題で構成される「Aider Polyglot」では、第2位のClaudeを抑えて、史上最高の68.6%を達成している。

日常のタスクのチャット相手としてはもちろん、コーディングアシスタントとしても1軍になりうるモデルだと言えよう。

その他主要な特徴としては以下が挙げられる。

  • 100万トークンものコンテキストウィンドウを持ち、データベースやコードベースを丸ごと読み込み可能(近日中に200万トークンまで拡大予定)。
  • 音声ファイルを読み込み、話者識別・タイムスタンプ付きで出力可能(後述)
  • 画像を読み込み、画像中のテキストの読み取りなども可能(後述)

音声の文字起こしや画像の読み取りも可能なマルチモーダル

Gemini 2.5 Proは、テキストだけでなく、画像や音声なども理解するマルチモーダルなAIモデルである。

Geminiの音声読み取り機能を活かすと、WhisperやGPT-4o TranscribeのようなSpeech-to-Textモデルと似たような使い方ができる。

100万トークンものコンテキストウィンドウを活かして、2時間を超えるポッドキャストを丸ごとテキストとして文字起こしすることも可能である。

例えば、試しにOpenAIが行ったYouTube上でのライブ配信の音声を、Gemini 2.5 Proにアップロードし、話者を区別した上で文字起こしするように依頼してみると、見事に話者識別あり・タイムスタンプありで文字起こしに成功した。

タイムスタンプも非常に正確である上、登場人物らの自己紹介を聞き取って、フルネーム付きで話者を識別することまで出来てしまっている。

また、画像読み取りの精度も非常に高い。

上記でも紹介した、Googleのリリースに掲載されているGemini 2.5 Proのベンチマーク結果のグラフをアップロードして、画像から数字を読み取って表に整理するように依頼してみた。

すると、3つの棒グラフが並ぶ複雑な構造の画像から、正確に結果を読み取って、ミスなく数値を書き出してくれた。

書類をスキャンした画像をGeminiにアップロードして、OCR化してもらうなど、日常生活や日常業務でも大いに役立ちそうだ。

Gemini 2.5 Pro を実際に試す3つの方法

非常に高性能なGemini 2.5 Proだが、なんと無料で使ってみることができる。

ここでは、普通に月額サブスクリプションを払ってGemini Advancedのチャットアプリを使う方法だけでなく、開発者向けのGoogle AI Studioや、オープンソースチャットアプリのLibreChatを用いて、お得に利用する方法も紹介する。

いずれも、プログラミングの知識不要で、誰でも試せるように解説しているので、参考にしてほしい。

Google AI Studio で無料でGemini 2.5 Pro Experimentalを試す

最も手軽かつ無料でGemini 2.5 Proを試す方法は、「Google AI Studio」を利用する方法である。

「Google AI Studio」は、Googleのアカウントを持っている人であれば誰でも利用できるツールで、本来はアプリやプログラムの開発者が、Geminiモデルのテストを行うためのツールだ。

Geminiのほぼ全てのモデルを、無料で利用できる。

ChatGPTやGeminiのウェブアプリほど洗練されたインターフェースではないが、一度使い方さえ理解すれば特に難しいことはない。

まず、「Google AI Studio」のページにアクセスして、Googleのアカウントでログインする。

左側のメニューで「Create Prompt」をクリックすると、以下のような見慣れたチャットインターフェースに近い画面が表示される。

右側にモデルセレクタがあるので、プルダウンメニューから最新の「Gemini 2.5 Pro Experimental 03-25」を選択する。

あとは普通に画面下部のテキストボックスから、質問をテキストで打ち込み、「Run」ボタンをクリックすれば、Gemini 2.5 Proモデルからの回答が生成される。

また、添付ファイルのアップロードも可能で、オーディオ、画像、YouTube動画などを読み込ませることができる。

唯一の注意点は、一般向けに作られたChatGPTやGeminiのアプリと異なり、開発者のテスト用なので、原則として履歴は残らないということだ。

テスト用のプロンプトとして保存しておくことはできるが、若干使いにくさは否めない。

その都度その都度、新しいスレッドを立てて会話して、特に履歴が残らなくても問題ない、という場合には、十分実用的な選択肢である。

Gemini Advanced を契約して快適に利用する(無料試用あり)

最も便利に使うには、一般消費者向けに作られた公式サービスであるGeminiのWebアプリやモバイルアプリを利用することだ。

「Gemini 2.5 Pro Experimental」などの最新モデルは、無料版のGeminiアプリでは利用できないので、有料の「Gemini Advanced」に登録する必要がある。

Gemini Advancedは、「Gemini 2.5 Pro Experimental」などの最新モデルを利用できることをはじめ、Googleドライブのストレージや、NotebookLMのプレミアム版が使えたりするので、コストパフォーマンスは悪くない。

しかも、初めて利用する人は初月無料で使えたり、以前利用したことがある人でも最初の2ヶ月半額で使えたりと、月3,000円超のChatGPTと比べて無料〜半額で使えるので、これを機に登録しても良いだろう。

最強の無料チャットUI「LibreChat」にAPIキーを持ち込み無料で使う

筆者が最もお勧めする使い方は、無料で利用できるGoogle AI Studioのメリットと、Gemini/ChatGPTなどの使いやすいユーザーインターフェースのメリットを、両方いいところどりする選択肢だ。

「LibreChat」というオープンソースの汎用チャットアプリを利用すると、Googleだけでなく、OpenAI、Anthropic、xAIなど各社のAIモデルを、一つの画面で利用できる。

LibreChatのインストール方法については、当サイトの過去記事で詳しく解説しているので、そちらの記事でインストールを終えてから戻ってきてほしい。

LibreChatでは、各社のAIモデルを利用するために、APIキーを入力する必要がある。

APIキーは、自分専用のパスワードのようなもので、これによって本人確認が行われ、LibreChatなどの第三者アプリ上でも、Geminiを利用できるようになる。

Google AI Studioでは、Geminiモデルを無料で利用するためのAPIキーを発行できるので、「Get API key」ボタンをクリックして、「APIキーを作成」してキーをコピーしておく。

APIキーが用意できたら、今度はLibreChatの設定ファイルを編集し、GeminiのAPIキーと、「Gemini 2.5 Pro Experimental」というモデル名を登録する。

まず、LibreChatのインストールフォルダを、Visual Studio Codeなどのテキストエディタで開く。そして、フォルダ内に.envというファイルがあるはずなので、これを編集する。

130行目付近に、以下のようなGOOGLE_KEYという項目と、GOOGLE_MODELSという項目があるはずだ。

GOOGLE_KEYのところに、先ほどGoogle AI Studioで作成したAPIキーをコピペしておく。

また、GOOGLE_MODELSのところに、gemini-2.5-pro-exp-03-25と書いておくことで、Gemini 2.5 Pro ExperimentalがLibreChat上で利用可能になる。

複数のモデルをカンマで区切って並べることもでき、筆者は以下の3モデルを登録してある。

  • gemini-2.5-pro-exp-03-25
  • gemini-2.0-flash-thinking-exp-01-21
  • gemini-2.0-flash

以上の作業を終えて、.envを上書き保存したら、LibreChatを再起動する。

コマンドプロンプト(Macならターミナルアプリ)で、LibreChatのインストールフォルダに移動した上で、以下のコマンドを打ち込む。LibreChatを再起動するとともに、ついでに最新版にアップデートしている。

docker compose down
git pull
docker compose pull
docker compose up

以上で、再びLibreChatを開くと、左上のモデルセレクターから、「Gemini 2.5 Pro Experimental」が選択できるようになっているはずだ。

Gemini 2.5 Pro Experimental と o3-mini-high を比較する

最近ではモデルの性能があまりにも高度化しているため、単純なプロンプトでは、ほとんどその性能を見極められない。

一番早い評価の方法は、自分のワークフロー内に最新モデルを実際に採用してみて、他のモデルで解けなかった問題を、新しいモデルが解決してくれるかどうかをみることだ。

本記事で紹介した方法を使って、とりあえず無料でGemini 2.5 Pro Experimentalを使ってみて、自分のユースケースにハマるかどうかを確認してみることを勧める。

ただ、せっかくなので、Gemini 2.5 Pro Experimentalのお手並み拝見ということで、シンプルなプロンプトを用いて、OpenAIの推論モデルo3-mini-highとの比較を行ってみる。

両モデルに与えたプロンプトは、以下のものだ。

車を運転する猫のSVG画像を書き出してください。

SVGとは、図形の形や色を文字で指定するテキストファイルで、ブラウザで見るとイラストとして表示される、という特殊な形式の画像だ。

「車に乗る猫」というあり得ない絵を、テキストによる推論・想像の表現力だけで、どこまで形にできるかをみるためのプロンプトである。

まずは以下の赤い車のイラストが、Gemini 2.5 Pro Experimentalが生成したSVGだ。

猫ということも理解できるし、ハンドルを握っていることで「運転」の描写もできている。悪くないイラストである。

一方で、o3-mini-highが同じプロンプトで出力したSVG画像が以下である。

単に猫っぽい図形が車体にくっついているだけで、運転感がなかったり、猫の描写も結構適当だったり、明かにGemini 2.5 Pro Experimentalの方が優れていると言って良いのではないか。

実際、筆者がコーディングアシスタントとしてGemini 2.5 Pro Experimentalを使ってみた感触としても、かなり問題解決能力が高く、Claude 3.7 Sonnetなどと比べても劣らないコード生成力であるように感じられた。

プログラミングであれ日常生活のタスクであれ、数日間Gemini 2.5 Pro Experimentalをワークフローに組み込んでみて、最新の推論モデルの性能を体感してみてはどうだろう。



Make a comment

*
*
* (公開されません)