AIじゃないよ

GPT-5.3-Codex 完全ガイド:Claude Opus 4.6と同日リリース、自分で自分を改善したAIエージェント

当サイトはアフィリエイト広告を一部掲載しています。
Terminal-Bench 2.0リーダーボード。GPT-5.3-Codexが75.1%で1位、Claude Opus 4.6が69.9%で2位を記録

米国時間2026年2月5日、OpenAIの「GPT-5.3-Codex」とAnthropicの「Claude Opus 4.6」がほぼ同時刻にリリースされた。

両社のフラッグシップモデルが同じタイミングで登場するという異例の展開だ。

Terminal-Bench 2.0(AIコーディングエージェントの能力を測るベンチマーク)では、GPT-5.3-Codexが77.3%、Claude Opus 4.6が65.4%を記録。12ポイント差でOpenAIが首位を獲得した。

本記事では、OpenAIが「自己を創造するのに役立った初のモデル」と称するGPT-5.3-Codexの全貌を解説する。



GPT-5.3-Codex の概要

GPT-5.3-Codexは、OpenAIが公式発表で「史上最も高性能なエージェント型コーディングモデル」と位置づける新モデルである。

前世代のGPT-5.2-Codex(コーディング特化)とGPT-5.2(推論・専門知識)の能力を単一モデルに統合し、さらに25%の高速化を実現した。

GPT-5.3-Codexの特徴を整理すると以下の通りだ。

  • 25%高速化: GPT-5.2-Codexと比較して25%高速、かつ少ないトークンで同等以上の成果を出す
  • 自己改善への関与: 自身のトレーニング・デバッグ・デプロイに貢献した初のモデル
  • リアルタイムインタラクション: 作業中にユーザーがリアルタイムで指示・質問可能(コンテキストを失わない)
  • サイバーセキュリティ能力: OpenAI初の「High capability」分類(悪用されると高いリスクがある程の高性能)

GPT-5.3-Codex のベンチマーク結果:前世代から大幅向上

OpenAIが公式発表で示したベンチマーク結果を見ると、GPT-5.3-Codexの進化が明確に読み取れる。

ベンチマークGPT-5.3-CodexGPT-5.2-Codex差分
SWE-Bench Pro56.8%56.4%+0.4pt
Terminal-Bench 2.077.3%64.0%+13.3pt
OSWorld-Verified64.7%38.2%+26.5pt
Cybersecurity CTF77.6%67.4%+10.2pt
SWE-Lancer IC Diamond81.4%76.0%+5.4pt

Terminal-Bench 2.0(ターミナル操作能力)で13.3ポイント、OSWorld-Verified(デスクトップ環境での生産性タスク)で26.5ポイントという大幅な向上が目を引く。

SWE-Bench Proでの改善幅は0.4ポイントと控えめだが、これは同ベンチマークがPython以外にも4言語に対応し、より実務に近い難易度の高いタスクを含むためだ。すでに高い水準を維持していると見るべきだろう。

AIコーディングエージェントが、自分で自分を改善する時代

OpenAIの発表の中で興味深いポイントは、GPT-5.3-Codexが、GPT-5.3-Codex自体の開発に役立った、という記載だ。

GPT‑5.3‑Codex is our first model that was instrumental in creating itself.

OpenAIの研究・エンジニアリングチームが、GPT-5.3-Codexの初期バージョンを、デバック、デプロイ管理、テスト・評価に使用したということらしい。

つまり、AIが自分自身を「開発ツール」として使って開発を加速した、というかなりSFっぽい話が紹介されている。

利用方法:ChatGPTプランで今すぐ使える

GPT-5.3-Codexは、ChatGPTの有料プランに加入していれば、以下のプラットフォームで利用可能だ。

  • Codexアプリ(macOS)
  • Codex CLI
  • IDE拡張機能(VS Code、Cursorなど)
  • Web版

対応プランも今まで通りだが、期間限定のキャンペーンとして、ChatGPT FreeおよびGoプランのユーザーにも開放されている。有料プランのユーザーはレート制限が2倍に緩和される。

  • ChatGPT Plus($20/月)
  • ChatGPT Pro($200/月)
  • ChatGPT Business
  • ChatGPT Enterprise
  • ChatGPT Edu
Codexアプリのモデル選択画面。GPT-5.3-Codexが選択されている

APIアクセスは「近日中」

開発者にとって気になるAPIアクセスだが、リリース時点では提供されていない。OpenAIは「安全にAPIアクセスを有効化する作業を進めている」と述べるにとどまっている。

プログラムから直接GPT-5.3-Codexを呼び出したい場合は、もう少し待つ必要がある。

サイバーセキュリティ能力の「High capability」分類

GPT-5.3-Codexは、OpenAIがサイバーセキュリティ分野で初めて「High capability(高リスク能力)」に分類したモデルである。

悪意があるユーザーに使われたらリスクが高い、という分類であるが、逆に言えば、脅威になりうるほど高性能である、ということの証左でもある。

Preparedness Frameworkとは

まず前提として、OpenAIにはPreparedness FrameworkというAI安全性評価の枠組みがある。

これは、フロンティアAIがもたらす潜在的リスクを事前に評価し、リスクレベルに応じた安全対策を講じるための社内基準だ。

評価対象は主に3領域:生物・化学サイバーセキュリティAI自己改善。各領域について、能力レベルを「High(高)」と「Critical(最高)」の2段階で判定する。

「High capability」の意味

サイバーセキュリティ分野における「High」は、既存のサイバー攻撃手法を大幅に効率化・自動化できる能力を意味する。具体的には以下のような能力だ。

  • まだ修正パッチが存在しない脆弱性(ゼロデイ脆弱性)の発見・悪用を支援できる
  • 企業ネットワークへの侵入など、複雑な攻撃を自動化できる
  • 攻撃の規模拡大や検知回避を助ける

つまり、悪意ある攻撃者がこのモデルを使えば、従来よりも少ない専門知識で高度な攻撃を実行できる可能性があるということだ。

一方、最高レベルの「Critical」は「前例のない新しい攻撃手法を生み出せる」段階を指す。GPT-5.3-Codexはそこまでは達していないが、「High」に達した可能性が否定できないため、予防的にこの分類が適用された。

OpenAIの対応策

System Cardによると、OpenAIはこれまでで最も包括的なセキュリティ対策を導入した。

  • 安全性トレーニングの強化: 悪用目的のリクエストを拒否するよう学習
  • 自動監視システム: 不審な利用パターンをリアルタイムで検知
  • トラステッドアクセスプログラム: 高度な機能は身元確認済みユーザーに限定
  • 脅威インテリジェンス連携: 最新の攻撃手法情報を対策に反映

同時に、防御側のサイバーセキュリティ専門家向けに「Trusted Access for Cyber」というパイロットプログラムを開始。

オープンソースソフトウェアや重要インフラの防御に取り組む組織向けに、1,000万ドル相当のAPIクレジット提供も発表された。

OpenAIは悪用リスクを抑えつつ、セキュリティ専門家には積極的に能力を提供するというバランスを取ろうとしている。

Claude Opus 4.6との比較

同日にリリースされたClaude Opus 4.6との違いを整理しよう。Anthropicの公式発表を踏まえると、両モデルは異なる方向性を持っていることがわかる。

どちらが「優れている」とは一概に言えない。ユースケースに応じた選択が重要だ。

観点GPT-5.3-CodexClaude Opus 4.6
ターミナル操作(Terminal-Bench 2.0)77.3%65.4%
コンピュータ操作(OSWorld)64.7%非公開
長文コンテキスト非公開1Mトークン(ベータ)
インタラクティブ性リアルタイムステアリング限定的
速度25%高速化標準
API近日予定即日利用可
価格(API)未公開$5/$25 per M tokens

GPT-5.3-Codexが向いているケース

  • ターミナル操作やシステム管理が多い作業
  • デスクトップ環境での自動化タスク
  • リアルタイムで指示を出しながらの協働
  • OpenAIエコシステム(ChatGPT、Codexアプリ)との統合

Claude Opus 4.6が向いているケース

  • 大規模なコードベースの一括処理(1Mトークンコンテキスト)
  • 複数エージェントによる並列処理(Agent Teams)
  • 即座にAPIから利用したい場合

まとめ:AIコーディング戦争の新章

GPT-5.3-CodexとClaude-Opus-4.6の同日リリースは、AIコーディング分野における競争の激化を象徴する出来事だ。

GPT-5.3-Codexは、Terminal-Bench 2.0やOSWorld-Verifiedでの大幅なスコア向上、25%の高速化という順当な進化を遂げている。

一方で、APIアクセスが「近日中」にとどまっているため、APIユーザーが直ちに試すことはできない。

ChatGPTの有料プランに加入していれば、Codexアプリ、CLI、IDE拡張機能を通じて今すぐGPT-5.3-Codexを試すことができる。

AIコーディングエージェントの進化を体感したい読者は、ぜひ手を動かしてみてほしい。



Make a comment

*
*
* (公開されません)