Gemini 2.5 Pro 完全ガイド：現状世界1位の推論モデル、文字起こしや画像認識も可能！

2025年3月25日、Googleが新たなモデルシリーズ「Gemini 2.5」を発表し、第一弾となる「Gemini 2.5 Pro Experimental」をリリースした。

Gemini 2.5 Proは、人間による投票でAIモデルの性能を競うサイト「Chatbot Arena」でも、xAIのGrok-3や、OpenAIのGPT-4.5などの競合を抑えて世界トップに躍り出た。

特にコーディング分野の性能が前世代モデルと比べ伸びており、主要なベンチマークで、高度なコーディング性能で知られるClaude 3.7 Sonnetと同等または上回るスコアを記録している。

また、あまり知られていないGeminiの隠れ機能として、音声ファイルを読み込んで文字起こししたり、画像から情報を抽出する機能も有しており、議事録作成や書類のOCRなど、日常業務でも大いに活かせそうだ。

本記事では、登場したばかりの「Gemini 2.5 Pro Experimental」の詳細を解説するとともに、実際に無料で使う方法をいくつか紹介する。

本記事を参考に、Googleの最新AIモデルの力を体感してほしい。

音声の文字起こしや画像の読み取りも可能なマルチモーダル

Gemini 2.5 Proは、テキストだけでなく、画像や音声なども理解するマルチモーダルなAIモデルである。

Geminiの音声読み取り機能を活かすと、WhisperやGPT-4o TranscribeのようなSpeech-to-Textモデルと似たような使い方ができる。

100万トークンものコンテキストウィンドウを活かして、2時間を超えるポッドキャストを丸ごとテキストとして文字起こしすることも可能である。

例えば、試しにOpenAIが行ったYouTube上でのライブ配信の音声を、Gemini 2.5 Proにアップロードし、話者を区別した上で文字起こしするように依頼してみると、見事に話者識別あり・タイムスタンプありで文字起こしに成功した。

タイムスタンプも非常に正確である上、登場人物らの自己紹介を聞き取って、フルネーム付きで話者を識別することまで出来てしまっている。

また、画像読み取りの精度も非常に高い。

上記でも紹介した、Googleのリリースに掲載されているGemini 2.5 Proのベンチマーク結果のグラフをアップロードして、画像から数字を読み取って表に整理するように依頼してみた。

すると、3つの棒グラフが並ぶ複雑な構造の画像から、正確に結果を読み取って、ミスなく数値を書き出してくれた。

書類をスキャンした画像をGeminiにアップロードして、OCR化してもらうなど、日常生活や日常業務でも大いに役立ちそうだ。

Gemini 2.5 Pro を実際に試す3つの方法

非常に高性能なGemini 2.5 Proだが、なんと無料で使ってみることができる。

ここでは、普通に月額サブスクリプションを払ってGemini Advancedのチャットアプリを使う方法だけでなく、開発者向けのGoogle AI Studioや、オープンソースチャットアプリのLibreChatを用いて、お得に利用する方法も紹介する。

いずれも、プログラミングの知識不要で、誰でも試せるように解説しているので、参考にしてほしい。

Google AI Studio で無料でGemini 2.5 Pro Experimentalを試す

最も手軽かつ無料でGemini 2.5 Proを試す方法は、「Google AI Studio」を利用する方法である。

「Google AI Studio」は、Googleのアカウントを持っている人であれば誰でも利用できるツールで、本来はアプリやプログラムの開発者が、Geminiモデルのテストを行うためのツールだ。

Geminiのほぼ全てのモデルを、無料で利用できる。

ChatGPTやGeminiのウェブアプリほど洗練されたインターフェースではないが、一度使い方さえ理解すれば特に難しいことはない。

まず、「Google AI Studio」のページにアクセスして、Googleのアカウントでログインする。

左側のメニューで「Create Prompt」をクリックすると、以下のような見慣れたチャットインターフェースに近い画面が表示される。

右側にモデルセレクタがあるので、プルダウンメニューから最新の「Gemini 2.5 Pro Experimental 03-25」を選択する。

あとは普通に画面下部のテキストボックスから、質問をテキストで打ち込み、「Run」ボタンをクリックすれば、Gemini 2.5 Proモデルからの回答が生成される。

また、添付ファイルのアップロードも可能で、オーディオ、画像、YouTube動画などを読み込ませることができる。

唯一の注意点は、一般向けに作られたChatGPTやGeminiのアプリと異なり、開発者のテスト用なので、原則として履歴は残らないということだ。

テスト用のプロンプトとして保存しておくことはできるが、若干使いにくさは否めない。

その都度その都度、新しいスレッドを立てて会話して、特に履歴が残らなくても問題ない、という場合には、十分実用的な選択肢である。

Gemini Advanced を契約して快適に利用する（無料試用あり）

最も便利に使うには、一般消費者向けに作られた公式サービスであるGeminiのWebアプリやモバイルアプリを利用することだ。

「Gemini 2.5 Pro Experimental」などの最新モデルは、無料版のGeminiアプリでは利用できないので、有料の「Gemini Advanced」に登録する必要がある。

Gemini Advancedは、「Gemini 2.5 Pro Experimental」などの最新モデルを利用できることをはじめ、Googleドライブのストレージや、NotebookLMのプレミアム版が使えたりするので、コストパフォーマンスは悪くない。

しかも、初めて利用する人は初月無料で使えたり、以前利用したことがある人でも最初の2ヶ月半額で使えたりと、月3,000円超のChatGPTと比べて無料〜半額で使えるので、これを機に登録しても良いだろう。

最強の無料チャットUI「LibreChat」にAPIキーを持ち込み無料で使う

筆者が最もお勧めする使い方は、無料で利用できるGoogle AI Studioのメリットと、Gemini/ChatGPTなどの使いやすいユーザーインターフェースのメリットを、両方いいところどりする選択肢だ。

「LibreChat」というオープンソースの汎用チャットアプリを利用すると、Googleだけでなく、OpenAI、Anthropic、xAIなど各社のAIモデルを、一つの画面で利用できる。

LibreChatのインストール方法については、当サイトの過去記事で詳しく解説しているので、そちらの記事でインストールを終えてから戻ってきてほしい。

LibreChat 完全ガイド：月額課金不要でChatGPT, Claude, Geminiを1箇所で使える最強アプリ

GPT-4o・Claude・Geminiなど複数AIモデルを自前APIキーで使えるオープンソースチャットUI「LibreChat」のDocker構築手順と活用法を解説する。

LibreChatでは、各社のAIモデルを利用するために、APIキーを入力する必要がある。

APIキーは、自分専用のパスワードのようなもので、これによって本人確認が行われ、LibreChatなどの第三者アプリ上でも、Geminiを利用できるようになる。

Google AI Studioでは、Geminiモデルを無料で利用するためのAPIキーを発行できるので、「Get API key」ボタンをクリックして、「APIキーを作成」してキーをコピーしておく。

APIキーが用意できたら、今度はLibreChatの設定ファイルを編集し、GeminiのAPIキーと、「Gemini 2.5 Pro Experimental」というモデル名を登録する。

まず、LibreChatのインストールフォルダを、Visual Studio Codeなどのテキストエディタで開く。そして、フォルダ内に.envというファイルがあるはずなので、これを編集する。

130行目付近に、以下のようなGOOGLE_KEYという項目と、GOOGLE_MODELSという項目があるはずだ。

GOOGLE_KEYのところに、先ほどGoogle AI Studioで作成したAPIキーをコピペしておく。

また、GOOGLE_MODELSのところに、gemini-2.5-pro-exp-03-25と書いておくことで、Gemini 2.5 Pro ExperimentalがLibreChat上で利用可能になる。

複数のモデルをカンマで区切って並べることもでき、筆者は以下の3モデルを登録してある。

gemini-2.5-pro-exp-03-25
gemini-2.0-flash-thinking-exp-01-21
gemini-2.0-flash

以上の作業を終えて、.envを上書き保存したら、LibreChatを再起動する。

コマンドプロンプト（Macならターミナルアプリ）で、LibreChatのインストールフォルダに移動した上で、以下のコマンドを打ち込む。LibreChatを再起動するとともに、ついでに最新版にアップデートしている。

docker compose down
git pull
docker compose pull
docker compose up

以上で、再びLibreChatを開くと、左上のモデルセレクターから、「Gemini 2.5 Pro Experimental」が選択できるようになっているはずだ。

Gemini 2.5 Pro Experimental と o3-mini-high を比較する

最近ではモデルの性能があまりにも高度化しているため、単純なプロンプトでは、ほとんどその性能を見極められない。

一番早い評価の方法は、自分のワークフロー内に最新モデルを実際に採用してみて、他のモデルで解けなかった問題を、新しいモデルが解決してくれるかどうかをみることだ。

本記事で紹介した方法を使って、とりあえず無料でGemini 2.5 Pro Experimentalを使ってみて、自分のユースケースにハマるかどうかを確認してみることを勧める。

ただ、せっかくなので、Gemini 2.5 Pro Experimentalのお手並み拝見ということで、シンプルなプロンプトを用いて、OpenAIの推論モデルo3-mini-highとの比較を行ってみる。

両モデルに与えたプロンプトは、以下のものだ。

車を運転する猫のSVG画像を書き出してください。

SVGとは、図形の形や色を文字で指定するテキストファイルで、ブラウザで見るとイラストとして表示される、という特殊な形式の画像だ。

「車に乗る猫」というあり得ない絵を、テキストによる推論・想像の表現力だけで、どこまで形にできるかをみるためのプロンプトである。

まずは以下の赤い車のイラストが、Gemini 2.5 Pro Experimentalが生成したSVGだ。

猫ということも理解できるし、ハンドルを握っていることで「運転」の描写もできている。悪くないイラストである。

一方で、o3-mini-highが同じプロンプトで出力したSVG画像が以下である。

単に猫っぽい図形が車体にくっついているだけで、運転感がなかったり、猫の描写も結構適当だったり、明かにGemini 2.5 Pro Experimentalの方が優れていると言って良いのではないか。

実際、筆者がコーディングアシスタントとしてGemini 2.5 Pro Experimentalを使ってみた感触としても、かなり問題解決能力が高く、Claude 3.7 Sonnetなどと比べても劣らないコード生成力であるように感じられた。

プログラミングであれ日常生活のタスクであれ、数日間Gemini 2.5 Pro Experimentalをワークフローに組み込んでみて、最新の推論モデルの性能を体感してみてはどうだろう。

Gemini 2.5 Pro 完全ガイド：現状世界1位の推論モデル、文字起こしや画像認識も可能！

最新の推論モデル Gemini 2.5 Pro Experimental の概要

音声の文字起こしや画像の読み取りも可能なマルチモーダル

Gemini 2.5 Pro を実際に試す3つの方法

Google AI Studio で無料でGemini 2.5 Pro Experimentalを試す

Gemini Advanced を契約して快適に利用する（無料試用あり）

最強の無料チャットUI「LibreChat」にAPIキーを持ち込み無料で使う

LibreChat 完全ガイド：月額課金不要でChatGPT, Claude, Geminiを1箇所で使える最強アプリ

Gemini 2.5 Pro Experimental と o3-mini-high を比較する

Related

Gemini 3.1 Pro 完全ガイド：Opus 4.6の半額以下でベンチマーク最強の新モデル

Gemini 3 Deep Think、ARC-AGI-2で84.6% ー 2ヶ月でスコア倍増、人間超えの推論AIへ

Gemini 2.5 シリーズ完全ガイド：Pro, Flashの性能＆新登場Flash-Liteの活用法

Gemini 2.0 Flash Thinking 完全ガイド：世界1位！無料で使える「o1」超えの推論モデル登場

Gemini 2.0 Flash 完全ガイド：リアルタイムのビデオ共有＆音声会話が可能に！GPT-4o超えの軽量モデル

突如世界1位に躍り出た「gemini-exp-1206」完全ガイド：無料で使う方法＆OpenAI o1との比較

Google Antigravityの使い方完全ガイド：GEMINI.md・Rules・Workflows・Skills・MCPを基礎から解説

Apple×Gemini連携で「Siri」はどう変わるのか：新機能・リリース時期・日本語対応の現状整理

日本未上陸のノーコードAIアプリ開発ツール「Google Opal」を日本から使う方法