Claude Sonnet 4.6 完全ガイド：Opusに肉薄する性能が、無課金でも使える時代に

Claude.aiのモデル選択メニュー。Sonnet 4.6が選択されており、拡張思考がオンになっている

2026年2月17日、Anthropicが「Claude Sonnet 4.6」をリリースした。

Opus 4.6の発表から12日後となるSonnetの新モデル投入であり、claude.aiの無料プラン・Proプランのデフォルトモデルが即日Sonnet 4.6になった。

API価格は前世代のSonnet 4.5と同じ入力$3/出力$15（100万トークンあたり）のまま据え置き。にもかかわらず、複数のベンチマークで、約1.7倍の価格のOpus 4.6に肉薄するスコアを記録している。

低価格で高速なミッドティアモデルが、前世代のフラッグシップの性能に追いつき、追い越していく、というLLM開発の発展の勢いは、相変わらず健在だ。

前世代（Sonnet 4.5）からの主なアップデート

Sonnet 4.6は「フルアップグレード」と銘打たれており、コーディング、コンピュータ操作、長文脈推論、エージェント計画、ナレッジワーク、デザインなどの全方位でモデル性能の改善が施されている。

また、知識のカットオフ日が、Sonnet 4.5では2025年2月だったところ、Sonnet 4.6で2025年8月に更新されている。

ベンチマークスコアを頼りに、4.6と4.5を横並びで比較すると、主な改善点は以下の通りだ。

項目	Sonnet 4.6	Sonnet 4.5	変化
SWE-bench Verified（コーディング）	79.6%	77.2%	+2.4pt
OSWorld（コンピュータ操作）	72.5%	61.4%	+11.1pt
Terminal-Bench 2.0（ターミナル操作）	59.1%	51.0%	+8.1pt
ARC-AGI-2（新規問題解決）	58.3%	13.6%	+44.7pt
MATH（数学）	89%	62%	+27pt
GDPval-AA（オフィスタスク、Elo）	1633	1276	+357 Elo
GPQA Diamond（大学院レベル推論）	89.9%	83.4%	+6.5pt

Sonnet 4.6のコーディング性能を最も端的に示すのは、Claude Code（Anthropic公式のCLIツール）での開発者選好データだ。

公式発表によると、早期テストにおいて開発者はSonnet 4.6をSonnet 4.5よりも70%の確率で好み、さらに2025年11月時点のフラッグシップだったOpus 4.5よりも59%の確率で好んだという。

また、特筆すべきはARC-AGI-2のベンチマークスコアの飛躍だ。ARC-AGI-2は、AIが「訓練中に一度も見たことのない新しいパズル」をその場で解けるかを測るベンチマークで、暗記やパターンの使い回しが一切通用しない。

GPT-4oなど一昔前のLLMは0%、2025年3月時点で最高性能だったo3でも約4%しか正答できなかった一方、人間の平均正答率は約60%という、AIにとって極めて厳しいテストである。

Sonnet 4.5の13.6%から58.3%へと4.3倍ものジャンプを見せ、「人間の平均」に匹敵する水準に到達した。新規問題への適応力が大きく改善されていることがわかる。

思考の深さを自動調整する「Adaptive Thinking」の導入

また、機能面での変更点として、Sonnet 4.6には「Adaptive Thinking」と呼ばれる新機能が搭載されている。

Anthropic Workbenchのモデル設定画面。claude-sonnet-4-6が選択され、Thinkingモードが「Adaptive」に設定されている

タスクの複雑さに応じて自動的に思考の深さを調整する仕組みで、単純な質問には素早く回答し、複雑な推論が必要な場面では深い思考チェーンを展開する。

API上では、low / medium / high / maxの4段階のエフォートレベルを指定できる。

Adaptive Thinkingのオンオフと、エフォートレベルの調整によって、速度と精度のバランスをユーザーがより柔軟にコントロールすることが可能になった。

上位モデル（Opus 4.6）や他社モデル（GPT-5.2）との比較

Sonnet 4.6の最大のインパクトは、フラッグシップであるOpus 4.6の性能に肉薄しつつ、価格が約6割に抑えられている点にある。

以下の表で両モデルを比較しつつ、ついでに競合のOpenAIが開発するGPT-5.2とも並べてみよう。

ベンチマーク	測定内容	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	コーディング	79.6%	80.8%	80.0%
Terminal-Bench 2.0	エージェント型コーディング	59.1%	65.4%	64.7%
OSWorld-Verified	コンピュータ操作	72.5%	72.7%	38.2%
ARC-AGI-2	新規問題解決	58.3%	68.8%	54.2%
GPQA Diamond	大学院レベル推論	89.9%	91.3%	93.2%
GDPval-AA（Elo）	オフィスタスク	1633	1606	1462
Finance Agent	金融分析	63.3%	60.1%	58.5%
MCP-Atlas	ツール使用	61.3%	59.5%	60.6%
BrowseComp	Web検索	74.7%	84.0%	77.9%
HLE（ツール有）	最先端知識	49.0%	53.0%	50.0%

Sonnet 4.6が、なんと上位モデルのOpus 4.6を上回っているベンチマークすらある。GDPval-AA（オフィスタスク）、Finance Agent（金融分析）などの業務寄りのタスクで、Opus以上のパフォーマンスが見られる。

一方、Opus 4.6が依然リードしているのは、ARC-AGI-2やHLEなど、深い推論や複雑な探索を要するタスクだ。

要するに、日常的な「作業」に近いタスクでは、Sonnet 4.6で十分に仕事をこなせる状態になりつつある、ということだ。

非常に難度の高い推論では、やはりOpus 4.6に軍配が上がるものの、これまで上位モデルでなければ解けなかったタスクを、Sonnet 4.6で試してみる価値はありそうだ。

また、利用料金の面でSonnet 4.6, Opus 4.6, GPT-5.2を比べてみよう。

モデル	入力 (/ MTok)	出力 (/ MTok)
Claude Sonnet 4.6	$3	$15
Claude Opus 4.6	$5	$25
GPT-5.2	$1.75	$14

Sonnet 4.6はOpus 4.6の約6割の価格だ。

一方、トークン単価だけを見ればGPT-5.2のほうがSonnet 4.6よりも安い。しかし、上記のベンチマーク表が示すように、Sonnet 4.6は多くのタスクでGPT-5.2を上回っており、用途に応じて使い分けるのがベストだ。

ベンチマークスコア解釈上の注意
Sonnet 4.6 は確かに安価だが、複雑なタスクに取り組む際には思考量が大幅に増え、消費するトークンが急激に増加しうる。例えば、上記のベンチマーク「GDPval-AA」では、Sonnet 4.6のスコアが最良となっているが、消費トークン数は280Mで、Opus 4.6の2倍近いトークンを消費したという。
安価なモデルでも、トークン消費が増えすぎると、結果として上位モデルと料金が同等になってしまうかもしれない。ベンチマークのスコアだけでなく、トークン使用量とのバランスを見ることが重要だ。