
OpenAIは2025年2月27日、同社史上最大の言語モデル「GPT-4.5」を正式にリリースした。
同社CEOのSam AltmanのXポストによれば、OpenAIの内部で「Orion」というコードネームで呼ばれていたモデルで、OpenAIが今後リリースするモデルのロードマップ内で「Chain-of-Thoughtを行わない最後のモデル」と位置付けられている。
GPT-4.5は、AIの二つの進化軸である「学習のスケールアップ」と「推論のスケールアップ」のうち、前者に特化した最後のモデルと言える。
「推論スケーリング」が、o1, o3のように回答生成前にモデルが「考える」時間を持たせることで回答の質を高めるのに対して、「学習スケーリング」は、トレーニング段階で与える情報量をひたすらに増やし、モデルの知識量を拡大させて性能を改善するアプローチだ。
その結果、GPT-4.5は超巨大なモデルとなっており、必要とする計算資源量も膨大で、API価格はGPT-4oの30倍となっている。
また、ChatGPT上では、月額200ドルのProプランに限定され、あくまで「リサーチプレビュー」として提供されている。
本記事では、GPT-4.5の発表概要、評価とベンチマーク、主要機能、そして実際の活用方法について詳細に解説する。
高額なProプランの契約がなくても、GPT-4.5を使う方法も紹介するので、GPT-4.5を触ってみたい人も参考にしてほしい。
GPT-4.5の概要:知識量アップ・正確性向上
GPT-4.5のトレーニングに要した具体的な計算量は明言されていないが、OpenAIのリサーチサイエンティストの1人が、Xのポストで「多分世界最大のモデル」と言っているので、そのトレーニングに膨大な計算資源が投下されていると思われる。
OpenAIのリリースによれば、GPT-4.5は主に以下のような特徴を有するという。
- より深く幅広い知識、世界の理解
- 人間との協働により適した温かく直感的(warm and intuitive)な会話
- 幅広いトピックでハルシネーションが減り、信頼性が向上
そのほかの点は、基本的にGPT-4oと変わっておらず、テキストや画像の読み込みが可能で、コンテキストウィンドウは128,000トークン、知識のカットオフ日も2023年10月までとなっている。
また、GPT-4oと同様の以下の機能も備えている。現在のところ、音声モード、ビデオ共有モードは非対応だ。
- Web検索機能(最新情報へのアクセス)
- ファイルや画像のアップロード機能
- キャンバス機能
- (APIの場合)関数呼び出し、Structured Outputs、ストリーミング、システムメッセージ

各種ベンチマークの結果を見ると、GPT-4.5はGPT-4oから全体的に性能が向上していることが窺える。
例えば、「SimpleQA」というOpenAIオリジナルのベンチマークのスコアを比較すると、以下の通りだ。
- SimpleQA Accuracy: 62.5%(GPT-4o:38.2%)
- SimpleQA Hallucination Rate: 37.1%(GPT-4o:61.8%)
「SimpleQA」は、言語モデルの事実性を測定するためのベンチマークで、4,326問の幅広いトピックの質問を聞き、正解率とハルシネーション率を測定する。
要するに、GPT-4.5は、存在しない適当な回答をでっちあげる(=ハルシネーション)ことが大幅に減少し、より正確な回答が可能になったということだ。
また、LLMの評価でよく使われる定番のベンチマークで、前世代のGPT-4oや推論モデルであるo3-miniとの比較を行ったのが下表である。
ベンチマーク | GPT-4.5 | GPT-4o | OpenAI o3-mini (high) |
---|---|---|---|
GPQA (科学) | 71.4% | 53.6% | 79.7% |
AIME ’24 (数学) | 36.7% | 9.3% | 87.3% |
MMMLU (多言語) | 85.1% | 81.5% | 81.1% |
MMMU (マルチモーダル) | 74.4% | 69.1% | – |
SWE-Lancer Diamond (コーディング) | 32.6% | 23.3% | 10.8% |
SWE-Bench Verified (コーディング) | 38.0% | 30.7% | 61.0% |
推論スケーリングと、学習スケーリングの強みの違いが際立つ結果だ。
推論モデルであるo3-miniと比較すると、科学や数学などの複雑な「思考力」を要する分野では、GPT-4.5は劣勢だ。
それに対して、コーディングや多言語理解など、幅広い「知識量」が求められる分野では、推論モデルにも迫る・勝るスコアを叩き出している。
GPT-4.5は、いわば「丸暗記型」の優等生といった感じだ。
より「エモく」なったGPT-4.5
GPT-4.5は、GPT-4oと比べ、人間の意図やニュアンスをより繊細に理解し、自然で温かみのある会話を行えるという。
これを、OpenAIは「EQ(感情知能)」と表現している。
例えば、「仕事と家事の両立の悩み」を相談してみると、GPT-4.5は質問者の悩みに寄り添って、より会話的に、こちらの情報を引き出そうとしてくれた。
人間の友人や、カウンセラーに相談した時の反応により近いのはこちらだろう。

それに対して、前世代のGPT-4oは、単に網羅的で一般的な「対策」をつらつらと書き連ねるだけだ。

このような特徴から、GPT-4.5は、文章の執筆のサポートや、デザインやアートの支援に適しているという。
ChatGPT Proのモデルプルダウンメニューでも、「アイディアを書き出したり、調べたりするのに最適です」と記載されている。

実際、筆者もよく文章の執筆中にGPTモデルを使用するのだが、GPT-4.5に長文を執筆させたときの文体や表現の自然さは、GPT-4oよりかなり改善されていると感じた。
GPT-4.5をProプランなしで使う方法
GPT-4.5は現在、ChatGPT Pro($200/月)ユーザー限定でウェブ、モバイル、デスクトップ版で提供されている。
利用するにはモデルピッカーから「GPT-4.5」を選択すればよい。画像やファイルのアップロード、検索、キャンバス機能も利用可能だ。
ただ、月200ドルという金額は高すぎて、GPT-4.5のために契約するのはハードルが高い。
ここでは、200ドルを払わずとも、APIを利用した従量課金で、GPT-4.5を簡単に試す方法を紹介する。
まず、OpenAI Developer Platformにアクセスして、開発者アカウントを作る。

そして、設定>Billingと進み、クレジットカードで5ドルなど少額をチャージすれば、APIを経由した従量課金で、GPTモデルの利用が可能になる。

APIといっても、「Playground」という機能を使えば、ほぼChatGPTと変わらぬ使い心地のUIで、最新モデルとのチャットが可能である。
Playgroundは、開発者のテスト用に用意されている機能で、チャージしたクレジットから、使った分だけ使用料が引かれていく。

超大量に使用しない限り、月額200ドルにいくことはほぼあり得ないので、Proプランを契約するより遥かに安く済むと思われる。
ChatGPTに限らず、AnthropicのClaudeや、GoogleのGeminiなど、LLMを使うときにはAPI経由で使うと節約できるのでおすすめだ。
GPT-4.5の膨大な計算コストを正当化できるか
GPT-4.5は、その巨大さゆえに、計算コストが高く、速度も遅い。
GPT-4.5のAPI利用料を見ると、入力は$75/百万トークン、出力は$150/百万トークンとなっており、GPT-4oの約30倍、GPT-4o miniの約500倍もの費用がかかる。
多くの開発者にとって、30倍のAPIコストのジャンプを受け入れられるほど、圧倒的な性能のジャンプがあるかというと、微妙かもしれない。
GPT-4.5は、ホワイトペーパー内で「フロンティアモデル(最も高度なモデル)ではない」と明言されており、GPT-4oの代替モデル・次世代モデルというわけでもない。
OpenAI自身、モデルが「非常に大規模で計算負荷が高い」こともあって、現時点ではまだユースケースを評価中というスタンスのようだ。
GPT‑4.5 is a very large and compute-intensive model, making it more expensive than and not a replacement for GPT‑4o. Because of this, we’re evaluating whether to continue serving it in the API long-term as we balance supporting current capabilities with building future models.
出典:OpenAIのリリース
冒頭で紹介したSam AltmanのXポストの通り、今後は、推論系のoシリーズと、非推論系のGPTシリーズが統合され、「GPT-5」に一本化されていく予定なので、GPT-4.5を我々が触る期間は、かなり短いかもしれない。
他社のモデルを見ると、つい数日前にリリースされたClaude 3.7 Sonnetも、推論と非推論を一つのモデルで行うハイブリッドモデルである。
推論と事前学習の両方を活用しながら、計算コストを効率化しつつも高い性能を達成することを目指す方向に各社とも進んでいくのだろう。
GPT-4.5からGPT-5へ:実用というより基盤的なモデルか
Sam Altman氏が示したロードマップからは、OpenAIが今後「Chain-of-Thought」を活用したo1, o3のような推論モデルと、GPT-4.5のような広範な知識・理解を持つモデルの強みを統合する方向性が示唆されている。
GPT-4.5は、そうした将来的な統合モデルの基盤となる重要な一歩と言える。
ただ、その移行期においても、GPT-4.5の文章作成やクリエイティブ分野での性能向上は、ライターやアーティストなど、特定の業界の人を助けることにはなるかもしれない。
一方で、その計算負荷の高さとコストから、GPT-4.5自体が、さまざまな業界で幅広く活用される、ということにはならなさそうだ。
例えば、以下のプロンプトで、ペンギンのイラストをSVGコードの形式で書いてもらったところ、GPT-4.5のイラストは確かに質が高いのだが、36秒もの時間がかかった。
空を飛ぶペンギンの静止画のSVG画像のコードを書いてください

GPT-4oでは25秒、o3-miniでは11秒で生成できたので、巨大モデルだけあって、GPT-4.5はテキスト生成のスピードも遅めな印象だ。
とはいえ、GPT-4oの描いたペンギンのイラストは以下で、クオリティがGPT-4.5の方が圧倒的に高いのは間違いないのだが・・・。
