GPT-5.3-Codex 完全ガイド：Claude Opus 4.6と同日リリース、自分で自分を改善したAIエージェント

Terminal-Bench 2.0リーダーボード。GPT-5.3-Codexが75.1%で1位、Claude Opus 4.6が69.9%で2位を記録

米国時間2026年2月5日、OpenAIの「GPT-5.3-Codex」とAnthropicの「Claude Opus 4.6」がほぼ同時刻にリリースされた。

両社のフラッグシップモデルが同じタイミングで登場するという異例の展開だ。

Terminal-Bench 2.0（AIコーディングエージェントの能力を測るベンチマーク）では、GPT-5.3-Codexが77.3%、Claude Opus 4.6が65.4%を記録。12ポイント差でOpenAIが首位を獲得した。

本記事では、OpenAIが「自己を創造するのに役立った初のモデル」と称するGPT-5.3-Codexの全貌を解説する。

GPT-5.3-Codex の概要

GPT-5.3-Codexは、OpenAIが公式発表で「史上最も高性能なエージェント型コーディングモデル」と位置づける新モデルである。

前世代のGPT-5.2-Codex（コーディング特化）とGPT-5.2（推論・専門知識）の能力を単一モデルに統合し、さらに25%の高速化を実現した。

GPT-5.3-Codexの特徴を整理すると以下の通りだ。

25%高速化: GPT-5.2-Codexと比較して25%高速、かつ少ないトークンで同等以上の成果を出す
自己改善への関与: 自身のトレーニング・デバッグ・デプロイに貢献した初のモデル
リアルタイムインタラクション: 作業中にユーザーがリアルタイムで指示・質問可能（コンテキストを失わない）
サイバーセキュリティ能力: OpenAI初の「High capability」分類（悪用されると高いリスクがある程の高性能）

GPT-5.3-Codex のベンチマーク結果：前世代から大幅向上

OpenAIが公式発表で示したベンチマーク結果を見ると、GPT-5.3-Codexの進化が明確に読み取れる。

ベンチマーク	GPT-5.3-Codex	GPT-5.2-Codex	差分
SWE-Bench Pro	56.8%	56.4%	+0.4pt
Terminal-Bench 2.0	77.3%	64.0%	+13.3pt
OSWorld-Verified	64.7%	38.2%	+26.5pt
Cybersecurity CTF	77.6%	67.4%	+10.2pt
SWE-Lancer IC Diamond	81.4%	76.0%	+5.4pt

Terminal-Bench 2.0（ターミナル操作能力）で13.3ポイント、OSWorld-Verified（デスクトップ環境での生産性タスク）で26.5ポイントという大幅な向上が目を引く。

SWE-Bench Proでの改善幅は0.4ポイントと控えめだが、これは同ベンチマークがPython以外にも4言語に対応し、より実務に近い難易度の高いタスクを含むためだ。すでに高い水準を維持していると見るべきだろう。

AIコーディングエージェントが、自分で自分を改善する時代

OpenAIの発表の中で興味深いポイントは、GPT-5.3-Codexが、GPT-5.3-Codex自体の開発に役立った、という記載だ。

GPT‑5.3‑Codex is our first model that was instrumental in creating itself.

OpenAIの研究・エンジニアリングチームが、GPT-5.3-Codexの初期バージョンを、デバック、デプロイ管理、テスト・評価に使用したということらしい。

つまり、AIが自分自身を「開発ツール」として使って開発を加速した、というかなりSFっぽい話が紹介されている。

利用方法：ChatGPTプランで今すぐ使える

GPT-5.3-Codexは、ChatGPTの有料プランに加入していれば、以下のプラットフォームで利用可能だ。

Codexアプリ（macOS）
Codex CLI
IDE拡張機能（VS Code、Cursorなど）
Web版

対応プランも今まで通りだが、期間限定のキャンペーンとして、ChatGPT FreeおよびGoプランのユーザーにも開放されている。有料プランのユーザーはレート制限が2倍に緩和される。

ChatGPT Plus（$20/月）
ChatGPT Pro（$200/月）
ChatGPT Business
ChatGPT Enterprise
ChatGPT Edu

Codexアプリのモデル選択画面。GPT-5.3-Codexが選択されている

APIアクセスは「近日中」

開発者にとって気になるAPIアクセスだが、リリース時点では提供されていない。OpenAIは「安全にAPIアクセスを有効化する作業を進めている」と述べるにとどまっている。

プログラムから直接GPT-5.3-Codexを呼び出したい場合は、もう少し待つ必要がある。

サイバーセキュリティ能力の「High capability」分類

GPT-5.3-Codexは、OpenAIがサイバーセキュリティ分野で初めて「High capability（高リスク能力）」に分類したモデルである。

悪意があるユーザーに使われたらリスクが高い、という分類であるが、逆に言えば、脅威になりうるほど高性能である、ということの証左でもある。

Preparedness Frameworkとは

まず前提として、OpenAIにはPreparedness FrameworkというAI安全性評価の枠組みがある。

これは、フロンティアAIがもたらす潜在的リスクを事前に評価し、リスクレベルに応じた安全対策を講じるための社内基準だ。

評価対象は主に3領域：生物・化学、サイバーセキュリティ、AI自己改善。各領域について、能力レベルを「High（高）」と「Critical（最高）」の2段階で判定する。

「High capability」の意味

サイバーセキュリティ分野における「High」は、既存のサイバー攻撃手法を大幅に効率化・自動化できる能力を意味する。具体的には以下のような能力だ。

まだ修正パッチが存在しない脆弱性（ゼロデイ脆弱性）の発見・悪用を支援できる
企業ネットワークへの侵入など、複雑な攻撃を自動化できる
攻撃の規模拡大や検知回避を助ける

つまり、悪意ある攻撃者がこのモデルを使えば、従来よりも少ない専門知識で高度な攻撃を実行できる可能性があるということだ。

一方、最高レベルの「Critical」は「前例のない新しい攻撃手法を生み出せる」段階を指す。GPT-5.3-Codexはそこまでは達していないが、「High」に達した可能性が否定できないため、予防的にこの分類が適用された。

OpenAIの対応策

System Cardによると、OpenAIはこれまでで最も包括的なセキュリティ対策を導入した。

安全性トレーニングの強化: 悪用目的のリクエストを拒否するよう学習
自動監視システム: 不審な利用パターンをリアルタイムで検知
トラステッドアクセスプログラム: 高度な機能は身元確認済みユーザーに限定
脅威インテリジェンス連携: 最新の攻撃手法情報を対策に反映

同時に、防御側のサイバーセキュリティ専門家向けに「Trusted Access for Cyber」というパイロットプログラムを開始。

オープンソースソフトウェアや重要インフラの防御に取り組む組織向けに、1,000万ドル相当のAPIクレジット提供も発表された。

OpenAIは悪用リスクを抑えつつ、セキュリティ専門家には積極的に能力を提供するというバランスを取ろうとしている。

Claude Opus 4.6との比較

同日にリリースされたClaude Opus 4.6との違いを整理しよう。Anthropicの公式発表を踏まえると、両モデルは異なる方向性を持っていることがわかる。

どちらが「優れている」とは一概に言えない。ユースケースに応じた選択が重要だ。

観点	GPT-5.3-Codex	Claude Opus 4.6
ターミナル操作（Terminal-Bench 2.0）	77.3%	65.4%
コンピュータ操作（OSWorld）	64.7%	非公開
長文コンテキスト	非公開	1Mトークン（ベータ）
インタラクティブ性	リアルタイムステアリング	限定的
速度	25%高速化	標準
API	近日予定	即日利用可
価格（API）	未公開	$5/$25 per M tokens