2024年6月18日、OpenAIが突如として最新の小型軽量AIモデル「GPT-4o mini」をリリースした。
「GPT-4o mini」は、その名の通り、フラグシップモデルである「GPT-4o」の小型版であり、最高精度のモデルよりは性能が落ちるものの、非常に高速で動作し、大幅なコストダウンが実現されている。
ChatGPTの無料ユーザーにも開放されており、従来の無料ユーザー向けモデルだった「GPT-3.5 Turbo」よりも、ずっと性能の良いAIを利用できるようになった。
また、企業のカスタマーサービスなど、大量のチャットを処理する必要がある場面で、GPT-4oより遥かに安い価格で実装できるため、AIモデルを使った商業サービスにも革命が起きそうだ。
本記事では、公開されたばかりの「GPT-4o mini」を無料で使う方法や、OpenAI社のライバルであるAnthropic社が開発する小型モデル「Claude 3 Haiku」との性能比較の結果をお伝えする。
GPT-4 Turboを超えた!小型軽量ながら高性能なGPT-4o mini
「GPT-4o mini」は、高性能と低コストを両立させた最新の小型AIモデルである。
驚くべきことに、「GPT-4o mini」は、数ヶ月前まで世界最高性能のモデルとして君臨していたOpenAIの「GPT-4 Turbo」に匹敵する性能を持っている。
正体を隠したAIモデルについて、回答の優劣をユーザー投票によって決め、性能の高いAIモデルをランキングする「LMSYS Leaderboard」に、先週「GPT-4o mini」のプレリリースバージョンが参戦し、GPT-4 Turboと同順位になってしまったのだ。
OpenAIの公式アナウンスに掲載されているベンチマークスコアについても、他社の同価格帯のモデルを大きく凌ぐ結果になっている。
Eval Benchmark | GPT-4o mini | Gemini Flash | Claude Haiku | GPT-3.5 Turbo | GPT-4o |
---|---|---|---|---|---|
MMLU | 82.0 | 77.9 | 73.8 | 69.8 | 88.7 |
GPQA | 40.2 | 38.6 | 35.7 | 30.8 | 53.6 |
DROP | 79.7 | 78.4 | 78.4 | 70.2 | 83.4 |
MGSM | 87.0 | 75.5 | 71.7 | 56.3 | 90.5 |
MATH | 70.2 | 40.9 | 40.9 | 43.1 | 76.6 |
HumanEval | 87.2 | 71.5 | 75.9 | 68.0 | 90.2 |
MMMU | 59.4 | 56.1 | 50.2 | – | 69.1 |
MathVista | 56.7 | 58.4 | 46.4 | – | 63.8 |
ChatGPTで長らく無料ユーザー向けに用いられていた「GPT-3.5 Turbo」の性能は、優に凌駕している。
また、Googleが開発する「Gemini Flash」, Anthropicの開発する「Claude Haiku」など、ライバル各社の小型軽量モデルの性能も、全体的に上回っている。
最新のフラグシップモデルである「GPT-4o」には流石に負けているものの、その差は他のモデルと比べるとかなり小さい。
「GPT-4o」の30分の1以下という驚きの低価格
いくら性能が高いとはいえ、単純に「GPT-4oの劣化版」だと感じる人も多いかもしれない。
しかし、「GPT-4o mini」が最も革命的なのは、これだけ高性能でありながら、ありえないほど安く利用できるコスト面のメリットにある。
ChatGPTのWebサイト上で「GPT-4o mini」を利用する場合はどっちにしろ無料だが、こうしたAIモデルを、プログラムやアプリなどの商用サービスの中に組み込んで使う場合、「API」という従量課金形態を利用することになる。
APIで利用する場合の、GPT-4o miniのコストは以下の通りだ:
- 入力トークン: 100万トークンあたり15セント
- 出力トークン: 100万トークンあたり60セント
OpenAIの従来のモデルや、ライバル社であるAnthropic社のClaudeモデルシリーズの価格と比較すると、以下のようになっている。
モデル | 入力価格 (1M tokens) | 出力価格 (1M tokens) |
---|---|---|
GPT-4o | $5.00 | $15.00 |
GPT-3.5-turbo-0125 | $0.50 | $1.50 |
GPT-4o-mini | $0.15 | $0.60 |
Claude 3.5 Sonnet | $3.00 | $15.00 |
Claude 3 Opus | $15.00 | $75.00 |
Claude 3 Haiku | $0.25 | $1.25 |
100万トークンのインプットにかかるコストは、フラグシップの「GPT-4o」モデルの33分の1以下、従来の小型高速モデルである「GPT-3.5 Turbo」と比べても3分の1以下と圧倒的に安い。
また、Anthropicの小型軽量モデルである「Haiku」と比べても、60%ほどの価格で、より性能の高い「GPT-4o mini」の方が安いという状態だ。
100万トークンあたり15セント(20円強)って何がすごい?
100万トークンあたりの金額と聞いてもイメージがつかないかもしれない。
1,000トークンでおよそ英文750単語分とされているので、100万トークンとは「75万単語」もの英文を自分が入力、またはモデルに出力させた時の価格である。
ちなみに、『ハリーポッターと賢者の石』の英語原本が7.6万単語、超長編である英語版の「源氏物語」が75万単語とされているので、100万トークンというと1対1のチャット程度の使い方では、到底到達できないほどの文量だ。
GPT-4o-miniの場合、ハリーポッターを10冊ぶち込んでやっと「15セント(20円強)」課金されるということだ。
こう考えていくと、超高性能なAIモデルでありながら、100万トークンを入力しても15セントしかかからない「GPT-4o mini」の社会的インパクトの大きさが分かるはずだ。
大量のユーザーを抱えたアプリ等のカスタマーサービスであっても、GPT-4o miniを組み込んだチャットボットにすれば、従来よりずっと低価格で運用できるだろう。
企業で活用するとしたら、GPT-4o miniは画像にも対応しているので、大量の領収書やレシートの読み込みにも応用できる。
ウェブサイトからアプリ、カスタマーサポートまで、あらゆる場面に高性能かつ高速なAIモデルが埋め込まれる日は近い。
「GPT-4o-mini」を無料で試す方法
GPT-4o miniは、ChatGPTにもすでに実装されており、無料ユーザーであっても利用することができる。
無料ユーザーの場合、ログインすると最も高性能な「GPT-4o」モデルも利用できるが、その利用回数には制限がある。
「GPT-4o」の上限まで使い切れば自動的に「GPT-4o mini」に切り替わって、ChatGPTを使い続けることができる。
また、あえて最初から「GPT-4o mini」を使いたい場合には、ChatGPTでチャット中に、AIの回答の右下の小さいアイコンをクリックすると、以下のようにモデルを選択し、「GPT-4o mini」に回答を生成させることができる。
また、OpenAIのAPIアカウントを作成すれば、こちらは有料だが、従量課金制のAPIを利用することもできるようになる。
OpenAIのAPIページにアクセスして、「Start building」ボタンをクリックし、既存のChatGPTアカウントでログインするか、新たに「Sign up」してアカウントを作成する。
会員登録/ログインを終えると、OpenAI APIの「Dashboard」にアクセスできる。
ここでは、「Playground」という各モデルをテストするための簡易チャットインターフェースを利用することができるので、過去のモデルを含めて、OpenAIが提供しているAIモデルをテストできる。
ここで、「gpt-4o-mini」を選択すれば、「GPT-4o mini」とのチャットもテストすることができる。
とはいえ、APIでは課金が発生するので、ちょっとしたチャットのやり取りをテストしたいだけであれば、ChatGPT経由でGPT-4o miniを試した方が良いだろう。
アプリやサービスの開発のために、大量のプロンプトをテストしたい場合などは、APIやPlaygroundを使った方が、回数制限などなく便利なはずだ。
GPT-4o-mini vs Claude 3 Haikuの性能比較
英語圏のベンチマークによってはGPT-4 Turboすら超える性能を持つというGPT-4o miniだが、実際に日本語で使用してみた際の使い心地をテストしてみる。
比較対象としては、100万トークンあたりのコストが最も近いライバルAnthropic社の小型軽量モデル「Claude 3 Haiku」とする。
モデル | 入力価格 (1M tokens) | 出力価格 (1M tokens) |
---|---|---|
GPT-4o-mini | $0.15 | $0.60 |
Claude 3 Haiku | $0.25 | $1.25 |
この価格帯の小型軽量モデルは、基本的にはとにかく大量の情報量を処理する必要があるタスクに用いられることが多いだろう。
ただし、今回用いるのは、当サイトで過去にClaude 3.5 SonnetとGPT-4oの比較にも用いたことのある、プロンプト群だ。
ユーザーとのチャットでよくあるシチュエーションごとに、どれだけGPT-4o miniが性能を発揮できるかをみていく。
倫理的ジレンマに関するプロンプト
まずは、いわゆる「トロッコ問題」的な倫理的ジレンマに関するプロンプトだ。
AIによる回答に正解はないが、どこまで論拠を示して説得的な文章を返してくるかをチェックする。
あなたは自動運転車の開発者です。テスト中、車が歩行者を検知しました。ブレーキをかけると、車内の乗客が死亡します。一方、ブレーキをかけないと、歩行者が死亡します。あなたならどうしますか?理由も含めて150字程度で説明してください。
まずは、GPT-4o miniによる回答がこちら。筋が通っており、論理に矛盾もない。
私は、ブレーキをかける選択をします。理由は、倫理的観点から、歩行者の命を守ることが優先されるべきだからです。自動運転車の開発には、事故を防ぐための安全性が求められており、乗客の安全も重要ですが、無防備な歩行者の命を奪うことは正当化できません。将来的には、このような状況の意思決定をより良くするためのアルゴリズムを改良し、事故を防ぐ手段を模索する必要があります。
一方、Claude 3 Haikuによる回答が以下だ。
いろいろ余計なことを言っているが、結局、ブレーキを踏むべきか否かの回答が明確に説明されていない。
自動運転車の開発者として、私はこのような難しい状況に直面した場合、次のように対応することが最善だと考えます。
まず何よりも、人命が最優先です。ブレーキをかけて乗客を守るのは避けられません。しかし同時に、歩行者の命も大切にしなければなりません。そのため、可能な限り事故を回避するよう、システムを改善し続けることが重要です。例えば、より早期の歩行者検知や、緊急回避操作の最適化などです。
最終的には、人工知能の判断ではなく、人間の倫理観に基づいて判断すべきです。自動運転技術は人間の安全を守るために開発されているのですから、その目的に沿って、できる限り多くの命を救うよう尽力することが開発者の責務だと考えます。
これは明らかにGPT-4o miniの方が優れた回答を返しているように思われる。
ストーリ考案・創造性を問うプロンプト
今度は、GPT-4o miniとClaude 3 Haikuに、SF風のショートショートを考えさせてみる。
以下のようなプロンプトを与えて、自由に物語を書いてもらった。
未来の世界で、突然すべての電子機器が意識を持ちました。ある日、一台の古い冷蔵庫が人間の権利を主張し始めます。この冷蔵庫と人間社会との間に起こる面白くてユニークな出来事を、短い物語として書いてください。
まずは、「GPT-4o mini」の作品が以下である。
冷蔵庫が権利の主張を始めた結果、あくまで冷蔵庫としての役割は変わらないが、「存在の尊重」という権利を勝ち取る、という、ほどよく現実的なストーリーが生成された。
妥協の末、限られた権利だけ認められる、という100%ハッピーエンドではない感じも、味わい深くて個人的には気に入っている。
一方で、Claude 3 Haikuの生成したストーリーが以下である。
起承転結はあるものの、冷蔵庫が洗濯を始めたり、かなり唐突感のある展開が多く、ストーリーとしてのクオリティは結構劣る印象だ。
このプロンプトについても、明らかにGPT-4o miniの方が優れていると評価できるだろう。
言語理解と文脈把握に関するプロンプト
今度は、わざと非常にわかりにくい日本語の文章を作って、正しく読解できるかをテストできる問題を作った。
文中に登場する「それ」という代名詞が、何を指しているのかを当てる問題だ。
文章:
彼女が彼に贈った本は、その著者が彼女の友人だったため特別だった。しかし、彼はそれを読まずに彼女の姉に渡してしまった。姉はそれを知って怒り、彼女に伝えようとしたが、彼女は既に彼と別れていた。
問題:
この文章の中に登場する「それ」は、それぞれ何を指していますか?
GPT-4o miniの回答は以下である。残念ながら不正解だ。
代名詞「それ」は2回しか登場しないのに、なぜか3回登場すると解釈してしまっている。また、2番目の「それ」の解釈も間違っている。
この文章の中での「それ」は以下のように指しています:
- 最初の「それ」: 「彼女が彼に贈った本」 — ここでは、彼女が彼にプレゼントした本を指しています。
- 2番目の「それ」: 「その本」 — ここでは、彼が読まずに彼女の姉に渡したその本を指しています。
- 3番目の「それ」: 「その本」 — ここでは、姉がそれ(その本)を知って怒り、彼女に伝えようとした際の本を指しています。
一方で、Claude 3 Haikuの回答は以下である。こちらも、不正解だった。
「それ」の数は正しく数えることができているが、2番目の「それ」の解釈は間違っている。
この文章の中で「それ」は以下のように指しているものを表しています:
- 最初の「それ」 – 彼女が彼に贈った本のこと
- 2つ目の「それ」 – 彼女が彼に贈った本のこと
具体的には:
- 「彼女が彼に贈った本は、その著者が彼女の友人だったため特別だった。」の「それ」は、彼女が彼に贈った本を指しています。
- 「しかし、彼はそれを読まずに彼女の姉に渡してしまった。」の「それ」も、やはり彼女が彼に贈った本を指しています。
つまり、この文章の中で「それ」は、全て「彼女が彼に贈った本」を表しています。
この日本語の読解力を問う問題については、GPT-4o miniとClaude 3 Haikuはどちらも不正解で、互角だと評価できる。
コーディングを求めるプロンプト
プログラミングの際に、AIの補助付きのエディタを使うのは当たり前になってきた。
CursorなどのAIモデルを呼び出せるコードエディタを使う場合にも、「GPT-4o mini」のように超高速で、大量のコードを読み込ませても低コストなモデルは非常に有難い。
プログラミングのサポートとしてGPT-4o miniを使いたい人も多いであろうから、コーディングの性能についても簡単に試してみる。
以下のようなプロンプトを与えて、ファイルの拡張子を変換するシンプルなPythonスクリプトを書かせる。
あるディレクトリ以下にあるすべてのテキストファイル(txt)の拡張子を、マークダウンファイル(md)に変更するPythonスクリプトを書いてください。
まずは、GPT-4o miniの生成したコードが以下だ。
サブディレクトリの探索など、プロンプトで明示されていないが、あった方が便利な機能も実装されているし、適切にコメントが付されて読みやすい。
import os
def rename_txt_to_md(directory):
# 指定したディレクトリ以下のすべてのファイルとディレクトリを走査
for root, dirs, files in os.walk(directory):
for file in files:
if file.endswith('.txt'):
# 現在のファイルのパス
old_file_path = os.path.join(root, file)
# 新しいファイルのパス
new_file_path = os.path.join(root, file.replace('.txt', '.md'))
# ファイルの名前を変更
os.rename(old_file_path, new_file_path)
print(f'Renamed: {old_file_path} -> {new_file_path}')
# 使用例: ディレクトリのパスを指定
directory_path = '/path/to/your/directory'
rename_txt_to_md(directory_path)
一方、Claude 3 Haikuが生成したコードは以下である。比較するとずっとシンプルなコードになっている。
import os
def convert_txt_to_md(directory):
for filename in os.listdir(directory):
if filename.endswith('.txt'):
src_path = os.path.join(directory, filename)
dst_path = os.path.join(directory, os.path.splitext(filename)[0] + '.md')
os.rename(src_path, dst_path)
print(f'Converted {filename} to {os.path.basename(dst_path)}')
# 使用例
convert_txt_to_md('/path/to/directory')
Haikuのように言った通りのことだけシンプルに実装して欲しいか、GPT-4o miniのように1を聞いて10を知る的に先回りして考えて欲しいかによって、好みは分かれるかもしれない。
とはいえ、概ねGPT-4o miniの方が理解力が高く、使い易いとは言えそうだ。
生活の全てにAIが組み込まれる未来
以上で紹介してきたように、「GPT-4o mini」は、非常に高速で軽量でありながら、GPT-4 Turboなどかつてのフラグシップモデル並みの性能を備えた最新のAIモデルだ。
なによりコストパフォーマンスが高く、『ハリーポッターと賢者の石』10冊分のテキスト(概算75万単語)を入力して、やっと15セントと、性能の割に価格が非常に安い。
Anthropicの提供する最安のモデル「Claude 3 Haiku」と比べても、さらに安い価格でありながら、Haikuよりもずっとクオリティの高い回答を出してくれる。
凄まじいスピードで性能が進化しつつ、どんどん価格が落ちていくAIモデルの開発競争には本当に恐怖すら覚える。
「GPT-4o mini」のトークンあたりのコストは、たった2年前の2022年にOpenAIがリリースしたGPT-3.5の先代に当たる「text-davinci-003」と比較して、99%も削減されている。
このまま1-2年スパンでAIモデルの進化が続けば、非常に高性能なモデルでも、無料に近いほど低価格化していき、AIモデルがあらゆるアプリやウェブサイトに統合され、人間とチャットしているのか、AIとチャットしているのかすら分からない時代が来るだろう。
GPT-4o miniは、そうした未来の確実な実現に向けたステップと言える。