AIじゃないよ

Gemini 2.5 シリーズ完全ガイド:Pro, Flashの性能&新登場Flash-Liteの活用法

当サイトはアフィリエイト広告を一部掲載しています。

2025年6月17日、Googleが開発する大規模言語モデル「Gemini」の新バージョンとなる「Gemini 2.5」モデルファミリーの正式版がリリースされた。

従来、Preview版/Experimental版として一部で利用できた「Gemini 2.5 Pro」と「Gemini 2.5 Flash」が遂に製品版となっただけでなく、「Gemini 2.5 Flash-Lite」という新たなモデルもラインナップに加わった。

Gemini 2.5 Proのプレビュー版は、各種ベンチマークでOpenAIのo3モデルや、AnthropicのClaude 4 Opusモデルなどの最高峰のモデルに肩を並べており、世界で最も性能が高いAIモデルの一つである。

本記事では、Pro, Flash, Flash-Liteの3つのモデルの性能を実際に比べてみた結果や、Gemini 2.5シリーズを無料で使う方法などをまとめる。

ChatGPTしか使ったことのないようなライトユーザーから、アプリやツールに採用するLLMモデルを検討中の開発者まで、ぜひ参考にしてほしい。



Gemini 2.5 シリーズの全貌:Pro, Flash, Flash Lite

Gemini 2.5 シリーズは、上述の通り、3つのモデルサイズが存在する。

ブラウザやスマホのGeminiアプリで利用できるほか、開発者がGeminiモデルを無料で試せるGoogle AI Studio、API経由などでそれぞれ利用できる。

Pro, Flash, Flash-LIteのいずれのモデルも、高度な問題解決力を持つ推論モデル(=最終回答を生成する前に思考ステップを書き出すモデル)で、思考する量を設定でコントロールできる。

Proが最も大型で性能が高く、費用も高いモデルになる。反対に、Flash-Liteは軽量で性能が低いが、費用が安いモデルである。

モデル1Mトークン価格概要
Gemini 2.5 Pro入力:$1.25
出力:$10
最も高性能でコーディングや複雑なタスクに最適
Gemini 2.5 Flash入力:$0.3
出力:$2.5
日常の一般的なタスクで高速な推論
Gemini 2.5 Flash-Lite
(プレビュー版)
入力:$0.1
出力:$0.4
最軽量・最高速、コストパフォーマンス重視

AIモデルの性能を比較する方法は多数あるが、中でも試験問題の学習を防ぎ常に新しい問題でLLMの能力を測定しているベンチマーク「LiveBench」を見ると、Gemini 2.5 Proは2025年6月現在でトップ5に入る超高性能なモデルだ。

Proはとにかく総合力・推論力に優れているが、実はFlashも、十分実用的な性能を備えている。実際、「Gemini 2.5 Flash」であっても、AnthropicのClaude 4 Sonnetや、OpenAIのGPT-4oより、LiveBenchのスコアは上である。

LiveBenchのランキングで、Gemini 2.5シリーズを抽出してみると、コーディングや推論力はProが圧倒的であるものの、数学能力やデータ分析については、ProとFlashは近いスコアを持つ。

特に生成スピードを気にしておらず、定額制の「Google AI Pro」プランなどに課金しており、とにかく最高性能の回答が欲しい場合には、常に「Gemini 2.5 Pro」を使っておけば良いだろう。

一方で、アプリやツールにGeminiを組み込んで使用する場合には、回答の生成スピードやコストの安さが重要になるので、コストと性能のバランスが良いFlashや、Proの10分の1以下のコストで利用できるFlash-Liteは有力な選択肢となる。

Gemini 2.5 シリーズを無料/有料で使う方法

Geminiモデルを利用する方法として、主に以下の3つの方法がある。

  • Webやスマホで提供されているGeminiアプリを普通に利用する(Gemini 2.5 Proは無料回数制限、有料プランは月額2,900円)
  • Google AI StudioのUI上でテストする(Gemini 2.5 Proも無料)
  • API経由で利用する(Tierによる従量課金)

本記事では、最も手軽なGeminiアプリを使う方法と、無料でGemini 2.5 Proを利用できるGoogle AI Studioを使う方法の2つを詳しく紹介する。

GeminiアプリでGemini 2.5 Pro、Gemini 2.5 Flashを使う

PCであればWebブラウザのGeminiから、スマホであればGeminiのスマホアプリ(iOS, Android)から、すでに最新のGemini 2.5シリーズを利用することができるようになっている。

ブラウザ版、スマホ版ともに、無料ユーザーであっても、最高性能のGemini 2.5 Proを利用することが可能だ。

無料ユーザーがGemini 2.5 Proを何回まで利用できるのか、具体的には明示されていないが、Gemini 2.5 Proの利用回数は限られている(出典:ヘルプページによれば、無料プランは「制限付きアクセス」)。

現実的には、GeminiのWeb版/スマホ版で、Gemini 2.5 Proを日常使いしたい場合には、課金が不可欠となってしまう。

Gemini 2.5 Proの利用回数を拡張したり、Gemini 2.5 Proを用いたDeep Researchなどの追加機能を利用するには、「Google AI Pro プラン(月額2,900円)」または「Google AI Ultra プラン(月額36,400円)」が必要だ。

ただし、大学生は15ヶ月無料、学生でなくとも初月無料など、初期費用が抑えられているので、試してみるのもアリだ。

なお、Gemini 2.5 Flash-Liteは、あくまでプレビュー版で製品リリース前のモデルなので、アプリには未登場だ。

Google AI Studioで全てのGeminiモデルを無料で使う

筆者のおすすめはこちらの方法である。

Google AI Studioは、Googleアカウントを持っていれば誰でも利用することのできる、ブラウザ上の開発ツールのようなものである。

本来は、アプリやツールの開発者が、事前にGeminiモデルの入力-出力をテストするための環境として提供されているものだ。

しかし、ほぼChatGPTやGeminiなどと変わらないチャット風のインターフェースで、Geminiの全てのモデルを呼び出して利用できるため、実質的には、無料で使えてしまうAIチャットアプリと言っても過言ではない。

開発者向けのツールのため、チャット履歴や履歴検索など、ChatGPTやGeminiアプリ版なら当たり前に存在する個人ユーザー向けの機能はついていない。

しかし、Gemini 2.5シリーズの全モデル(Pro, Flash, Flash-Lite)はもちろんのこと、Gemini 2.0シリーズや、その他のGoogleが開発するAIモデルも、Google AI Studio上であれば、全て無料で利用することができるのが大きなメリットだ。

使い方は簡単で、Google AI Studioを開き、右上のプルダウンメニューで使用したいモデル、例えば「Gemini 2.5 Pro」を選択し、画面中央のチャットボックスにプロンプトを打ち込むだけだ。

最新・最高性能のGemini 2.5 Proを、一般的な使い方であればほぼ制限されることなく、無料で利用することができる。

課金する前に、ひとまずGeminiを試してみたい、と思っている人には、強くお勧めしたいツールだ。

使っているうちにGeminiが手放せなくなってきて、Deep Researchなどのアプリ版にしかない機能が使いたくなってきたら、Google AI Proプランへの課金を検討すれば良い。

Gemini 2.5 全モデルの性能比較:文字起こしやコーディングの実力は

3つのモデルの用途に応じた適切な使い分け方を理解するため、Pro, Flash, Flash-Liteに同様のタスクを投げて、どのような違いがあるのかを実際に試してみた。

以下の例によって、Gemini 2.5 シリーズの3つのモデルの特徴を、ざっくりと理解することができるはずである。

音声ファイルからの文字起こしによる性能比較

Gemini 2.5 Pro / Flash / Flash-Lite のいずれも、画像、動画、音声などの読み込みに対応したマルチモーダルなモデルである。

Gemini APIのモデルの種類を解説した公式ドキュメントによれば、各モデルが対応している入出力形式は以下の通りである。

モデル入力フォーマット(API)出力フォーマット(API,)
Gemini 2.5 Pro音声、画像、動画、テキスト、PDFテキスト
Gemini 2.5 Flash音声、画像、動画、テキストテキスト
Gemini 2.5 Flash-Lite音声、画像、動画、テキストテキスト

今回は、録音したMTGの音声を文字起こしするようなシーンを想定して、オーディオファイルのテキストへの変換を依頼してみた。

次のようなプロンプトを使用して、OpenAIのポッドキャストの第1話の冒頭3分の1程度を、3つのGeminiモデルに文字起こしさせてみた。二人の人物が、AIの未来について話し合う内容だ。

添付の音声ファイルを、話者を区別して文字起こしして下さい。
話者の氏名が分かる場合には、以下のように苗字を文頭に表示してください。
 (田中)こんにちは。
 (山田)こんにちは。宜しくお願いします。

各モデルの出力結果は以下の通りである。ポッドキャスト全体は長文なので、比較のため一部のやり取りのみを抜粋している。

Gemini 2.5 Pro による文字起こし結果(所要時間:141秒)

Gemini 2.5 Proは、明らかに文字起こしの性能が高く、途中に挟まる短い相槌などを含め、本当に完璧に文字起こしが行われている。

出力に時間を要するものの、ポッドキャスト内の話者の識別までも完璧で、登場人物の名前を伝えていないのに、自動的に話者の氏名まで特定することに成功している。

以下はごく一部のみの抜粋だが、「Right.」と言うだけのごく短い相槌、「I, I, I mean」などの言い淀み、「uh」などのフィラー(無意味な発話)も含め、会話を完璧に再現していることが分かる。

(Mayne)
One of my friends is a new parent and is using ChatGPT a lot to ask questions, and it's become a very good resource. And you are a new parent. And how much has ChatGPT been helping you with that?

(Altman)
A lot. I I, I mean, clearly people have been able to take care of babies without ChatGPT for a long time.

(Mayne)
Right.

(Altman)
I don't know how I would have done that. Uh, those first few weeks, it was like, every question, I mean, constantly. Now I, now I kind of ask it questions about like developmental stages more because I can kind of, I can, I can do the basics, but uh,

(Mayne)
Is this normal?

Gemini 2.5 Flash による文字起こし結果(所要時間:35秒)

Gemini 2.5 Flashは、Proと比べて4分の1〜5分の1という圧倒的なスピードで文字起こしを完了してくれた。

文字起こしの正確さも、Proほど完璧な会話の再現には至っていないが、十分に実用レベルに達していると言える。

以下は、上で紹介したProと同じ会話を、Flashがどのように文字起こししたかの結果だ。

合間の短い相槌が省略されてしまっており、片方が一方的に話しているように見える。また、二人の人間を区別することはできているが、氏名までは特定できていないなど、Proと比べ見劣りする点は複数ある。

しかし、会話の内容自体は正確にテキスト化されており、スピードと性能のバランスが非常に良いと評価できる。

(Speaker 1) One of my friends is a new parent and is using Chat GPT a lot to ask questions. It's become a very good resource and you are a new parent and how much has Chat GPT been helping you with that?

(Speaker 2) A lot. I I I mean, clearly, people have been able to take care of babies without Chat GPT for a long time. I don't know how I would have done that. Uh, those first few weeks, it was like every I mean, constantly. Now I now I kind of ask it questions about like developmental stages more cuz I kind of I can I can do the basics, but uh

(Speaker 1) Is this normal?

Gemini 2.5 Flash-Lite による文字起こし結果(所要時間:17秒)

Flash-Liteは、Flashよりもさらに半分の時間で、高速で文字起こしを完了してくれた。

そのスピードを考えると、文字起こしの精度は十分に高いと言える。WhisperなどのSTT(Speech-to-Text)専用のモデルに近い使用感だ。

ただし、ざっと見ただけでも、

  • 話者の識別が甘く、2人の発言を1人にまとめてしまったり、人物の名前が逆になってしまっていたりする
  • thoseをthisと聞き間違えたり、大きな文意を損なうほどではないが、細かいミスが目立つ

などの問題点がある。

以下は、上でProやFlashで文字起こしをした箇所と同じ部分を抜粋したものだ。Proの出力した「正解」と比べると、かなり間違いが多いことがわかるはずだ。

(Sam Altman)One of my friends is a new parent and is using ChatGPT a lot to ask questions, and it's become a very good resource. And you are a new parent, and how much has ChatGPT been helpful to you with that?

(Andy Maine)A lot. I mean, clearly people have been able to take care of babies without ChatGPT for a long time. I don't know how I would have done that. Uh, those first few weeks, it was like, every prompt, I mean, constantly. Now, now I kind of ask it questions about, like, developmental stages more. Cause I can, I can do the basics, but, is this normal?

長時間の音声を文字起こしする場合や、正確な議事録よりは単にざっくりテキスト化して検索可能にしておきたい場合など、スピードと量をこなすことを重視する場合には、Flash-Liteは心強いモデルになりそうだ。

徹底した正確性を重視するならPro、長時間の音声だが正確に文字起こししたいならFlash、バルクで大量に処理したいならFlash-Liteといった使い分けが基本になるだろう。

SVG画像のコード生成による性能比較

コーディング能力をざっくりと把握するために、Gemini 2.5 の3つのモデルに、SVG画像を描写させてみる。

SVG画像とは、直線や図形を組み合わせて、テキストによってグラフィックを描写するファイル形式である。

今回は、以下のプロンプトで指示をしてみた。過去にはOpenAIのo3などでも試したことのあるプロンプトだ。

車を運転する猫のSVG画像を書き出してください。

Gemini 2.5 Proが生成したSVGファイル(所要時間:97秒)

サングラスっぽいものをかけており、ちゃんとハンドルを握っているように見える、イケイケの猫が生成された。

背景の道路や青空なども描写されている。

Gemini 2.5 Flashが生成したSVGファイル(所要時間:38秒)

Flashの生成した猫も、それほど悪くないが、背景は簡素で、ハンドルの位置などがProと比べると崩れているように見えなくもない。

Gemini 2.5 Flash-Liteが生成したSVGファイル(所要時間:3.5秒)

Flash-Liteは3秒台と非常に高速だが、やはりイラストのクオリティは最も低かった。

当然の結論ではあるが、やはり高度な思考力や、高度な抽象化の能力が必要になる、コーディング等の複雑なタスクでは、Proを使うに越したことはない。



Make a comment

*
*
* (公開されません)