2024年12月21日に発表されたばかりのOpenAI o3モデルシリーズ。
中でも注目されているのは、従来のスキル・知識測定型のベンチマークテストとは異なり、その場でまったく新しいスキルを当意即妙に獲得できるかを測る「ARC-AGI」というベンチマークの結果だ。
o3の高負荷モード(o3低負荷モードの172倍の計算量)では、87.5%という驚きの高スコアを記録し、従来モデルを大きく突き放した。
とはいえ、ARC-AGIにおける高スコアが何を意味し、さらにどの程度のコストをかけて実現されているのかは謎が多い。
そんな中、ARC-AGIそのものの開発者であるFrançois Chollet氏が、ARC PrizeのWebサイト上で、o3の裏側を解説する記事を投稿した。
同氏は、フランス人のソフトウェアエンジニア兼研究者で、2015年から2024年11月までGoogleに在籍していた人物だ。深層学習ライブラリKerasの開発者としても知られ、多岐にわたって重要な功績を残している。
“Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don’t think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.”
(ARC-AGIに合格したからといってAGIを達成したことにはならない。実際、o3はまだAGIではないと考えている。o3はいくつかの非常に簡単なタスクに失敗しており、人間の知能とは本質的に異なる部分があることを示唆している。)
ARC-AGI開発者の目から見ても、o3はAGIそのものではない。しかし、確実に何か新しい段階に踏み込んでいると考えられる。
本記事では、François Chollet氏の寄稿を読み解いて、o3がなぜARC-AGIで高スコアを達成できたのか、また一体どれだけの計算コストがかかっているのかなどを掘り下げてみる。
ARC-AGIとo3の「高効率モード」「低効率モード」
今回OpenAIが公表したo3のARC-AGIテストのスコアでは、「高効率モード (High-Efficiency)=低負荷モード」「低効率モード (Low-Efficiency)=高負荷モード」という2種類の設定が使われている。
これはサンプリング回数を変えることで計算コストに差をつけ、そのうえで性能を測るという仕組みだ。
- 高効率/低負荷モード: サンプリング回数が少なく、必要となる計算量(トークン数)や実行時間が抑えられる代わりに、スコアがやや低めになる設定
- 低効率/高負荷モード: サンプリング回数が多く、大幅に計算量が増えるものの、高いスコアを達成できる設定
計算量が多ければ多いほど性能は向上するので、
- 低負荷モードでは「Semi-Private Eval」で75.7%、「Public Eval」で82.8%
- 高負荷モードでは「Semi-Private Eval」で87.5%、「Public Eval」で91.5%
という結果になっている。
ちなみに、ARC-AGIの「Semi-Private Eval」は、100個のタスクで構成され、AIによるタスク自体の学習を防ぐため、定期的に更新されるのが特徴。こちらのスコアの方が信頼性が高い。
一方の「Public Eval」は、公開された400個のタスクにより構成され、研究者がローカル環境でパフォーマンスを検証する目的で使われる。既にAIに解法を学習されているリスクがあるため、参考値だ。
o3のARC-AGIテスト結果と推定コスト
François Chollet氏が公開したレポート(OpenAI o3 Breakthrough High Score on ARC-AGI-Pub)に掲載されている表によると、ARC-AGIにおけるo3の主なスコアと、計算にかかるコストの対応は以下のようになっている。
o3 モデル | テスト種別 | 問題数 | スコア | 費用 | 費用/問題 | 時間/問題 (分) |
---|---|---|---|---|---|---|
低負荷モード | Semi-Private | 100 | 75.7% | $2,012 | $20 | 1.3 |
Public | 400 | 82.8% | $6,677 | $17 | N/A | |
高負荷モード | Semi-Private | 100 | 87.5% | – | – | 13.8 |
Public | 400 | 91.5% | – | – | N/A |
o3の高負荷モードの費用は未決定のため記載されていないが、必要な計算量は、低負荷モードのおよそ172倍だという。
ということは、低負荷モードの費用を172倍すれば、非常に雑だが推定コストを計算することは可能だ。
単純計算すると、”o3 High” がARC-AGIを解くのにかかった費用は、以下のようになるはずである。
o3 モデル | テスト種別 | 問題数 | 推定費用 | 1問あたり推定費用 |
---|---|---|---|---|
高負荷モード | Semi-Private | 100 | $346,064 (約5,200万円) | $3,460 (約51.9万円) |
Public | 400 | $1,148,444 (約1.7億円) | $2,871 (約43万円) |
個人や中小企業が気軽に使えるような金額ではないのはもちろん、大企業にとっても相当な出費だろう。
したがって、現時点では、「o3は確かにすごいが、最大パフォーマンスを引き出すには、人間を雇う数倍〜数十倍のコストがかかる」と言えそうだ。
とはいえ、AIの進化速度を踏まえると、今後1〜2年のうちにこの価格差は急速に縮まる可能性がある。
かつて大規模言語モデルが数年前には途方もないコストを要していたのが、今や多くの企業で使われるようになっているのと同様だ。
o3のメカニズム――なぜ高スコアが出せるのか
o3がなぜここまで高いスコアを記録できたのか。
Chollet氏は記事の中で、以下のような言語によるbrute-force(総当たり)なプログラム探索の仕組みを推定している。
コンピューターが、チェスで無数の手を総当たりで試して、最善手を見つけるように、o3は、目の前にあるタスクを解決する手順の候補を、テキストの形で大量に生成し、それを順に評価していくのではないか、ということだ。
“For now, we can only speculate about the exact specifics of how o3 works. But o3’s core mechanism appears to be natural language program search and execution within token space – at test time, the model searches over the space of possible Chains of Thought (CoTs) describing the steps required to solve the task, in a fashion perhaps not too dissimilar to AlphaZero-style Monte-Carlo tree search.”
(現時点ではo3が正確にどう動作しているかは憶測の域を出ない。しかし、o3のコアメカニズムは、自然言語によるプログラム探索とトークンスペース上での実行にあるようだ。テスト時にはタスクを解決するのに必要な一連のステップ(Chain of Thought, CoT)を、AlphaZeroのモンテカルロ木探索に近いかたちで探しに行くのではないだろうか。)
一回の推論(“シングル・ジェネレーション”)に依存する従来の大規模言語モデルとは違い、o3は、大量の手順を思いつく限り挙げて、総当たりで成否を検証していく。
だからこそ、1タスクあたり数千万〜数億トークンという膨大な検索が必要になり、上述したような莫大な計算コストを必要としてしまうのではないか、ということだ。
計算コストの観点からは非効率にも思えるが、いずれにせよ従来のLLMの限界を打ち破り、パラダイムシフトを起こしているのは間違いない。
“o3 fixes the fundamental limitation of the LLM paradigm – the inability to recombine knowledge at test time”
(o3は、テスト時に知識を再結合できないという従来のLLMパラダイムの根本的な制約を克服している。)
AGIはまだ来ない? ARC-AGIベンチマークは続編待ち
ARC-AGIは「推論や学習をその場で行い、新しいスキルを獲得できるか」を測る、Chollet氏いわく“最も厄介なテスト”だ。
o3はこれをかなりの高スコアで突破したものの、依然として人間なら容易に解けるタスクで失敗するケースもある。
Chollet氏自身も「o3はAGIではない」と明言している。
また、さらなるAIモデルの進化を計測するため、ARC-AGIの改良版である「ARC-AGI-2」が2025年にリリースされる予定だ。
“Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).”
(さらに、現在進行中のARC-AGI-2ベンチマークではo3にとっても大きな挑戦となり、高い計算リソースを用いてもスコアが30%未満に落ち込む可能性があると示唆するデータも得られている。一方で、賢い人間であれば学習なしでも95%超を叩き出せる見込みだ。)
今回のo3のようなブレークスルーに対応し、さらに難易度の高いベンチマークテストが用意され、またそれを超えていくAIモデルが現れる・・・という進化の過程は、とてもエキサイティングだ。
o3がARC-AGIを全問解く費用は推定1.7億円!
OpenAIがo3シリーズを発表した「12 Days of OpenAI」の動画内では、”o3 High”と称するモデルが、ARC-AGIのSemi-Private Evalで87.5%というスコアを叩き出したことが紹介されていた。
以上で紹介したような背景情報を読み解いていくと、これだけの高スコアの背景には、とんでもない計算資源が投下され、おそらく1億円を優に超えるほどの費用がかかっていると思われる。
75.7%を記録した”o3 Low”は、100個のタスクをこなすのに2,000ドル程度(30万円程度)と、まだ現実的な費用感で運用できそうだ。
件の”o3 High”は、o3 Lowの172倍の計算量を要するとのことなので、単純計算すると、同じ100タスクをこなすのに5,000万円超、1問を解くのに50万円超の費用が必要になる。
o3 Highに関しては、おそらく当分の間、一般に利用可能な形ではリリースされないものと思われる。
GPUをはじめとする計算資源のイノベーションが進み、計算コストが低下して、o3 Highの規模のモデルを一般人でも利用できる世の中が来ることを祈るばかりだ。