AIじゃないよ

Claude Sonnet 4.6 完全ガイド:Opusに肉薄する性能が、無課金でも使える時代に

当サイトはアフィリエイト広告を一部掲載しています。
Claude.aiのモデル選択メニュー。Sonnet 4.6が選択されており、拡張思考がオンになっている

2026年2月17日、Anthropicが「Claude Sonnet 4.6」をリリースした

Opus 4.6の発表から12日後となるSonnetの新モデル投入であり、claude.aiの無料プラン・Proプランのデフォルトモデルが即日Sonnet 4.6になった。

API価格は前世代のSonnet 4.5と同じ入力$3/出力$15(100万トークンあたり)のまま据え置き。にもかかわらず、複数のベンチマークで、約1.7倍の価格のOpus 4.6に肉薄するスコアを記録している。

低価格で高速なミッドティアモデルが、前世代のフラッグシップの性能に追いつき、追い越していく、というLLM開発の発展の勢いは、相変わらず健在だ。



前世代(Sonnet 4.5)からの主なアップデート

Sonnet 4.6は「フルアップグレード」と銘打たれており、コーディング、コンピュータ操作、長文脈推論、エージェント計画、ナレッジワーク、デザインなどの全方位でモデル性能の改善が施されている。

また、知識のカットオフ日が、Sonnet 4.5では2025年2月だったところ、Sonnet 4.6で2025年8月に更新されている。

ベンチマークスコアを頼りに、4.6と4.5を横並びで比較すると、主な改善点は以下の通りだ。

項目Sonnet 4.6Sonnet 4.5変化
SWE-bench Verified(コーディング)79.6%77.2%+2.4pt
OSWorld(コンピュータ操作)72.5%61.4%+11.1pt
Terminal-Bench 2.0(ターミナル操作)59.1%51.0%+8.1pt
ARC-AGI-2(新規問題解決)58.3%13.6%+44.7pt
MATH(数学)89%62%+27pt
GDPval-AA(オフィスタスク、Elo)16331276+357 Elo
GPQA Diamond(大学院レベル推論)89.9%83.4%+6.5pt

Sonnet 4.6のコーディング性能を最も端的に示すのは、Claude Code(Anthropic公式のCLIツール)での開発者選好データだ。

公式発表によると、早期テストにおいて開発者はSonnet 4.6をSonnet 4.5よりも70%の確率で好み、さらに2025年11月時点のフラッグシップだったOpus 4.5よりも59%の確率で好んだという。

また、特筆すべきはARC-AGI-2のベンチマークスコアの飛躍だ。ARC-AGI-2は、AIが「訓練中に一度も見たことのない新しいパズル」をその場で解けるかを測るベンチマークで、暗記やパターンの使い回しが一切通用しない。

GPT-4oなど一昔前のLLMは0%、2025年3月時点で最高性能だったo3でも約4%しか正答できなかった一方、人間の平均正答率は約60%という、AIにとって極めて厳しいテストである。

Sonnet 4.5の13.6%から58.3%へと4.3倍ものジャンプを見せ、「人間の平均」に匹敵する水準に到達した。新規問題への適応力が大きく改善されていることがわかる。

思考の深さを自動調整する「Adaptive Thinking」の導入

また、機能面での変更点として、Sonnet 4.6には「Adaptive Thinking」と呼ばれる新機能が搭載されている。

Anthropic Workbenchのモデル設定画面。claude-sonnet-4-6が選択され、Thinkingモードが「Adaptive」に設定されている

タスクの複雑さに応じて自動的に思考の深さを調整する仕組みで、単純な質問には素早く回答し、複雑な推論が必要な場面では深い思考チェーンを展開する。

API上では、low / medium / high / maxの4段階のエフォートレベルを指定できる。

Adaptive Thinkingのオンオフと、エフォートレベルの調整によって、速度と精度のバランスをユーザーがより柔軟にコントロールすることが可能になった。

上位モデル(Opus 4.6)や他社モデル(GPT-5.2)との比較

Sonnet 4.6の最大のインパクトは、フラッグシップであるOpus 4.6の性能に肉薄しつつ、価格が約6割に抑えられている点にある。

以下の表で両モデルを比較しつつ、ついでに競合のOpenAIが開発するGPT-5.2とも並べてみよう。

ベンチマーク測定内容Sonnet 4.6Opus 4.6GPT-5.2
SWE-bench Verifiedコーディング79.6%80.8%80.0%
Terminal-Bench 2.0エージェント型コーディング59.1%65.4%64.7%
OSWorld-Verifiedコンピュータ操作72.5%72.7%38.2%
ARC-AGI-2新規問題解決58.3%68.8%54.2%
GPQA Diamond大学院レベル推論89.9%91.3%93.2%
GDPval-AA(Elo)オフィスタスク163316061462
Finance Agent金融分析63.3%60.1%58.5%
MCP-Atlasツール使用61.3%59.5%60.6%
BrowseCompWeb検索74.7%84.0%77.9%
HLE(ツール有)最先端知識49.0%53.0%50.0%

Sonnet 4.6が、なんと上位モデルのOpus 4.6を上回っているベンチマークすらある。GDPval-AA(オフィスタスク)、Finance Agent(金融分析)などの業務寄りのタスクで、Opus以上のパフォーマンスが見られる。

一方、Opus 4.6が依然リードしているのは、ARC-AGI-2やHLEなど、深い推論や複雑な探索を要するタスクだ。

要するに、日常的な「作業」に近いタスクでは、Sonnet 4.6で十分に仕事をこなせる状態になりつつある、ということだ。

非常に難度の高い推論では、やはりOpus 4.6に軍配が上がるものの、これまで上位モデルでなければ解けなかったタスクを、Sonnet 4.6で試してみる価値はありそうだ。

また、利用料金の面でSonnet 4.6, Opus 4.6, GPT-5.2を比べてみよう。

モデル入力 (/ MTok)出力 (/ MTok)
Claude Sonnet 4.6$3$15
Claude Opus 4.6$5$25
GPT-5.2$1.75$14

Sonnet 4.6はOpus 4.6の約6割の価格だ。

一方、トークン単価だけを見ればGPT-5.2のほうがSonnet 4.6よりも安い。しかし、上記のベンチマーク表が示すように、Sonnet 4.6は多くのタスクでGPT-5.2を上回っており、用途に応じて使い分けるのがベストだ。

ベンチマークスコア解釈上の注意
Sonnet 4.6 は確かに安価だが、複雑なタスクに取り組む際には思考量が大幅に増え、消費するトークンが急激に増加しうる。例えば、上記のベンチマーク「GDPval-AA」では、Sonnet 4.6のスコアが最良となっているが、消費トークン数は280Mで、Opus 4.6の2倍近いトークンを消費したという。
安価なモデルでも、トークン消費が増えすぎると、結果として上位モデルと料金が同等になってしまうかもしれない。ベンチマークのスコアだけでなく、トークン使用量とのバランスを見ることが重要だ。

無課金でもOpus級:無料プランが「使える」レベルに到達

Sonnet 4.6は、claude.aiの無料プランおよびProプラン(月額$20)のデフォルトモデルに即日設定されている。従来のSonnet 4.5からの自動アップグレードなので、ユーザー側での操作は一切不要だ。

前述のベンチマークが示す通り、Sonnet 4.6はOpus 4.6に肉薄する性能を持つ。つまり、1円も課金しなくても、ほんの数か月前まではフラッグシップでしか手に届かなかったレベルのAIを日常的に使える、ということだ。

加えて、今回のリリースに合わせて無料プランで使える機能も大幅に拡充された。

  • ファイル作成 — 会話内でドキュメントやコードファイルを直接生成・ダウンロード可能に
  • コネクタ — Google Drive等の外部データソースを接続し、手持ちの資料をClaudeに読み込ませられる
  • スキル — よく使うインストラクションをテンプレートとして保存・再利用できる
  • コンテキスト圧縮 — 長い会話でも古いコンテキストを自動要約し、文脈を維持したままやり取りを継続できる

これらはいずれも、ChatGPT(無料版)やGeminiの無料プランでは提供されていないか、有料プラン限定の機能だ。モデル性能と機能の両面で、Claudeの無料プランは主要AIサービスのなかで頭ひとつ抜けた存在になったと言っていい。

「AIに興味はあるけれど、月額課金はまだ……」という人にとって、Claudeの無料プランは現時点で最もおすすめできる選択肢だ。

無課金OKのミドルクラスモデルがフラッグシップに迫る時代

AI業界全体で、「性能は急速に向上し、同等性能あたりの価格は急速に下落する」というトレンドが鮮明だ。

本記事で示したベンチマークの通り、わずか数か月前のフラッグシップだったOpus 4.5の性能に、次世代のミッドティア(Sonnet 4.6)が追いつき、多くの指標で追い越していく、というサイクルが繰り返されている。

高度な推論などではまだOpusが優位ではあるものの、API開発者やClaude Codeユーザーにとっては、「Opus級の性能を約6割のコストで呼び出せる」という新しい選択肢が生まれた。

また、今回のアップデートは無課金ユーザーにとっての恩恵も見逃せない。

claude.aiの無料プランは、アカウント登録だけでSonnet 4.6がデフォルトで使える。

Web検索、ファイル作成、コード実行、Google Driveなど外部サービスとの接続、さらには複雑な推論を可能にする拡張思考まで、有料プラン限定でもおかしくない機能が無料で開放されている。

メッセージ数に上限はあるものの、ちょっとした調べものやコードの相談、文章の推敲といった日常タスクなら十分にこなせる水準だ。

まだSonnet 4.6を試していないなら、claude.aiを開いてみてほしい——アカウントを作るだけで、フラッグシップ級の実力をすぐに体験できる。

筆者プロフィール画像

この記事を書いた人 kumori

AIツール/アプリ/ガジェットを実際に検証し、具体のユースケースまで噛み砕いて解説しています。

  • 米国の大学院で統計学(修士)
  • Python・Rによるデータ分析
  • マーケティング/広告運用(TV〜Web、数十億規模PJのリード経験)



Make a comment

*
*
* (公開されません)