2025年2月24日、大規模言語モデルClaudeを開発するAnthropicが、新たなモデル「Claude 3.7 Sonnet」をリリースした。
旧バージョンのClaude 3.5 Sonnetと比べ、各ベンチマークの評価が大きく向上しているだけでなく、ついに待望の「推論モード(extended thinking)」にも対応した。
OpenAIのo3、GoogleのGemini 2.0 Flash Thinking、xAIのGrok 3、DeepSeekのR1と、他社が次々とより高度な思考が可能な「推論モデル」をリリースしてきた中、Anthropicだけ出遅れていたが、ついにClaudeも推論モデルの仲間入りをしたことになる。
Anthropic公式によって「ポケモンテスト」も行われており、推論モードのClaude 3.7 Sonnetは、ゲームボーイのポケットモンスター 赤をプレイして、3番目のジムリーダー・マチスを倒すことに成功するほどの思考力を有するという。
本記事では、Claude 3.7 Sonnetの概要や特徴を総まとめするとともに、実際にWeb版やAPI版で利用する手順を紹介する。
Claude 3.7 Sonnet の概要
Anthropicの公式発表によれば、Claude 3.7 Sonnetの主要なアップデート内容は以下の通りである。
- 最も高性能なモデル & 初のハイブリッド推論型AI: Claude 3.7 Sonnetは、従来通りの瞬時に回答するモードと、長く思考する推論モードを、単一のモデルで併用できる初のハイブリッド推論モデルである。その性能も群を抜いており、Anthropic史上もっとも知能の高い問題解決力の高いモデルである。
- 即時応答と拡張思考モード: 標準モードではほぼ瞬時に回答を返すが、Extended Thinkingモード(拡張思考モード)に切り替えることで、ステップバイステップで”考えて”から、回答を生成する。拡張思考モード中のモデルの思考過程はユーザーにも可視化され、どのように結論にたどり着いたのかの途中経過を確認できる。
- APIでの細かな推論制御: API利用時にモデルの「思考」に割くトークン量(ステップ数)を細かく指定可能である。例えば「最大Nトークンまで考えて」と上限を設定でき(128Kトークンまで)、速度と応答精度のトレードオフを調整できる。
- コーディング性能の飛躍的向上: 特にプログラミングやフロントエンドWeb開発の分野で大幅な性能向上が報告されている。複雑なコードベースの理解やバグ修正、Webアプリの構築など、開発者向けタスクでさらに活躍してくれそうだ。
- 新ツール「Claude Code」の導入: モデル本体のアップデートに加え、開発者向けのコーディングCLIツール「Claude Code」が研究プレビュー版として提供開始された。ターミナル上で動作し、コードの検索・編集・テスト実行・GitHubへのプッシュなど一連のソフトウェア開発タスクを自動化するものである。
以下では、これらの各ポイントについて、実際のスクリーンショットも交えながら詳細を解説していく。
ちなみに、なぜClaude 3.5 Sonnetの次が、Claude 3.7 Sonnetなのかについては、昨年10月ごろのClaude 3.5 Sonnetのアップデート前後で、3.5の性能があまりにも向上し過ぎて、コミュニティのユーザーが勝手に「Claude 3.6 Sonnet」と名付けていたことに由来すると思われる。
以下のベンチマーク表にも登場する「Claude 3.5 Sonnet (new)」というモデルが、ユーザーたちが非公式に「Claude 3.6 Sonnet」と呼んでいた2024年10月以降のモデルのことだ。
Claude 3.7 Sonnet の評価:問題解決力が飛躍的に向上
Claude 3.7 Sonnetは各種ベンチマークで、前世代のClaude 3.5 Sonnetを大きく上回り、競合他社のモデルと比べても、トップクラスの成績を叩き出している。
例えば、ソフトウェアエンジニアリングのテストであるSWE-bench Verifiedでは、他社モデルを抑えて最高性能を達成。また、複数のツールを組み合わせて実世界の問題解決能力を測るTAU-benchでも、トップスコアを記録している。
他にも、指示追従(プロンプトに従う能力)、マルチモーダル(画像)理解など、幅広い分野でo3やGrok 3など競合に迫る、または超える性能を示している。
特にExtended Thinkingモードでは、即答モードに比べて、数学や科学分野の課題で顕著なブーストが確認できる。
Category | Claude 3.7 Sonnet (64K extended thinking) | Claude 3.7 Sonnet (No extended thinking) | Claude 3.5 Sonnet (new) | OpenAI 01 | OpenAI 03-mini | DeepSeek R1 (32K extended thinking) | Grok 3 Beta (Extended thinking) |
---|---|---|---|---|---|---|---|
大学院レベル推論 GPQA Diamond | 78.2% / 84.8% | 68.0% | 65.0% | 75.7% / 78.0% | 79.7% | 71.5% | 80.2% / 84.6% |
ソフトウェアエンジニアリング SWE-bench Verified | — | 62.3% / 70.3% | 49.0% | 48.9% | 49.3% | 49.2% | — |
ツールユース TAU-bench | — | Retail 81.2%, Airline 58.4% | Retail 71.5%, Airline 48.8% | Retail 73.5%, Airline 54.2% | — | — | — |
多言語Q&A MMMLU | 86.1% | 83.2% | 82.1% | 87.7% | 79.5% | — | — |
マルチモーダル理解 MMMU (validation) | 75% | 71.8% | 70.4% | 78.2% | — | — | 76.0% / 78.0% |
指示追従 IFEval | 93.2% | 90.8% | 90.2% | — | — | 83.3% | — |
数学問題解決 MATH 500 | 96.2% | 82.2% | 78.0% | 96.4% | 97.9% | 97.3% | — |
数学コンペ AIME 2024 | 61.3% / 80.0% | 23.3% | 16.0% | 79.2% / 83.3% | 87.3% | 79.8% | 83.9% / 93.3% |
また、ゲームボーイ版のポケモンをClaudeの各モデルにプレイさせ、どこまでたどり着けるかを試したAnthropic公式によるポケモンテストの結果も興味深い。
従来のClaude 3.5 Sonnetは「トキワのもり」などかなり初期のステージでスタックしてしまうのに対して、extended thinkingを有効にしたClaude 3.7 Sonnetは、3番目のジムリーダーを倒してバッジをゲットするところまで辿り着けたという。
Chatbot ArenaやLivebenchなどの主要なベンチマークサイトに、まだClaude 3.7 Sonnetが登場していないので、さらなる評価も待たれる。
これまでも、プログラマーの間で根強い人気を誇っていたClaude 3.5 Sonnetが、さらに問題解決能力を高めて登場となれば、そのパフォーマンスには期待が高まる。
Extended Thinking モードを試す

Claude 3.7 Sonnetの最大の特徴は、1つのモデルで、異なる思考時間を使い分けられる点である。
ユーザーは対話中に通常モード(素早い回答)とExtended Thinkingモード(時間をかけた深い推論)を選択できる。

通常モードでは従来どおり入力に対して即座に回答し、簡潔で素早い応答を返す。一方、Extended Thinkingモードでは、回答を出す前にモデル自身が段階的に思考・内省するプロセスを挟む。
考える時間を挟むことで、回答のスピードは遅くなるが、数学の問題や物理シミュレーション、複雑な指示の理解、コードの論理検証など、高度な課題に対する正確性が大きく向上する。
この思考の過程は、「Chain-of-Thought」などと呼ばれ、モデルが独り言を喋りながら思考を深めていくプロセスだが、Claude 3.7 Sonnetでは、このCoTを覗き見ることもできる。

開発者向けには、このExtendedモードの挙動を、APIパラメータで制御可能である。

前述のように「何トークン分考えるか」を数値で指定でき、例えば簡単なタスクではN=0で即応答、難しいタスクではN=50000でじっくり推論、といった使い分けがプログラム的に行える。
こうした推論トークン予算をマニュアルで設定できる機能は、Anthropicが業界で初めて提供する機能と思われ、用途に応じて応答スピードと精度のバランスを細かく最適化できる柔軟性を提供している。
Claude 3.7 Sonnet を実際に試す方法
Claude 3.7 Sonnetは、早速、一般ユーザーでも使ってみることができる。
以下ではWeb版(Claude.ai)での利用、API経由での利用、そして外部サービスであるPerplexityを通じた利用方法について紹介する。
アプリ版やWeb版(Claude.ai)で利用する
Anthropicが提供する公式ウェブインターフェース「Claude.ai」上で、すぐにClaude 3.7 Sonnetを試すことができる。
スマホアプリでも、すでにClaude 3.7 Sonnetが利用可能になっている。

無料プランのユーザーでも3.7 Sonnetにアクセス可能で、アカウントをまだ持っていなければ会員登録するだけで、チャット形式でClaude 3.7 Sonnetと対話できる。後述するGitHub連携等の開発支援機能も利用できるため、コーディング用途でも便利だ。
ただし、Extended Thinkingモード(拡張思考モード)は有料プラン限定の機能となっており、無料ユーザーは標準モードでの利用に限られる。

ProやTeamプランでは1日の利用回数やトークン使用量の上限が大幅に緩和されており、Extended Thinkingモード(拡張思考モード)を含むすべての機能を制限少なく使うことができる。
API経由で利用する
Claude 3.7 Sonnetは、既にAnthropic API上で利用可能で、API呼び出し時にモデル指定をすることでこのバージョンを選択できる。
自分でコードを書かなくとも、Anthropicの開発者向けページからAPIアカウントを作成し、「Workbench」というテスト画面を使えば、使いやすいチャット風のインターフェースで、Claudeとのチャットが可能だ。

APIは、トークン使用量に応じた従量課金制なので、数セントで結構チャットが可能だ。
ClaudeのProプランは、月額20ドルの課金が必要なので、まずは少し性能を試したい程度のユーザーの場合は、APIを経由して従量課金で使った方が良い。
筆者は、各社のAIモデルを全て月額契約していたらお財布が持たないので、Claudeについては、APIを経由して、当サイトでも紹介したLibreChatのインターフェース上でモデルを利用している。
API利用の大きなメリットは、拡張思考モードの細かな制御ができることである。前述のように、モデルに考えさせるトークン数の上限(CoTに割くトークン数)を設定可能なので、用途に応じて思考レベルを調整できる。

標準モード・拡張モードいずれの場合もAPI利用料金は一律で、入力100万トークンあたり$3、出力100万トークンあたり$15に設定されている。
拡張思考のCoT部分に費やした「思考用トークン」も出力トークンとして計上される。
例えば1,000トークン(日本語でおよそ800文字程度)の質問を投げ、モデルから1,000トークンの回答を得ても、費用は数セント程度に収まる。大量のデータ処理や長文解析を行う場合でもコスト増加を抑えられるため、月額20ドルよりもずっと安価に済む価格設定と言える。
他社のモデルと比べると、OpenAIの推論モデルo1の価格は、入力100万トークンで$15、出力100万トークンで$30なので、Claude 3.7 Sonnetの推論モデルとしての価格は、結構安価に感じられる。
Perplexity経由で利用する
サードパーティのサービスでClaude 3.7 Sonnetを試す方法として、Perplexity AI(AI検索エンジン・チャットサービス)を利用する手段もある。
Perplexityでは、従来からOpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetなどを利用できたが、今回のClaude 3.7 Sonnetについても、リリース直後に爆速で実装を完了してくれている。
有料版であるPerplexity Proのユーザーは、追加費用なしでClaude 3.7 Sonnetを選択できる。
Perplexity Proは月額20ドルだが、GPT-4o、Gemini 2.0 Flash、Claude 3.7 Sonnet、DeepSeek R1などの最先端のモデルを用途に応じて選択して使えるので、各社のサービスに単独で課金するよりお得感がある。

設定画面の「AI Model」オプションからClaude 3.7 Sonnetを選ぶだけで切り替えが完了し、以降の検索・チャット問い合わせでClaude 3.7が応答を生成するようになる。
Perplexity経由でClaude 3.7を使う利点は、ウェブ検索と組み合わせた質問・回答が可能なことである。Perplexityは入力クエリに関連するウェブ上の情報を収集し、モデルが回答する際に、その情報を参照する仕組みになっている。
そのため、Claude 3.7の言語生成能力とPerplexityの検索機能が組み合わさり、最新の情報に裏付けされた回答や出典付きの回答を得ることができる。
すでにPerplexityを利用している方は、設定を確認してぜひ試してみてほしい。
まだPerplexity Proに課金したことがない人は、こちらのリンクから登録すると初月10ドル割引クーポンが適用される。
その他のアップデートと新機能「Claude Code」
今回の新モデルリリースに合わせて、開発者が嬉しい新機能がいくつか追加されている。
元々コーディングに強いとされていたClaude 3.5 Sonnetだが、さらにコーディングアシスタントとして活躍の場が増えそうだ。
GitHub統合機能が全プランのユーザーに解放
Claude.aiのインターフェースから、自分のGitHubリポジトリを接続でき、コードベースを読み込ませたり、リポジトリ内のファイルについて質問したり、直接コード提案を適用するといったことが可能になった。
これにより、自身のプロジェクトとClaudeをダイレクトに連携させて、バグ修正や機能実装、ドキュメント生成などを対話的に進められる。
Claude 3.7は過去最高のコーディング能力を持つモデルであり、かなり活躍してくれそうな期待が持てる。
Claude Codeと自律エージェント
今回のリリースで注目すべきは、モデルそのものだけでなく、開発支援ツールが充実した点である。
中でも「Claude Code」は、Anthropic初の試みとなるエージェント型コーディング支援ツールであり、ソフトウェア開発者にとって大きなインパクトがありそうだ。
Claude Codeは、CLI上で動作し、以下のようなことを自動で行えるという。
- コードの読み書きと編集: プロジェクト内のコードを横断的に検索・閲覧し、指示に応じて該当部分のコードを編集する。複数ファイルにまたがる大規模修正も一度の指示で実行可能である。
- テストの生成と実行: 指定した機能に対するユニットテストコードを生成し、それを実際に実行して結果を検証する。失敗したテストに基づきデバッグを継続するといったループも自動化される。
- バージョン管理操作: Gitコマンドを発行し、変更をコミットしてプッシュするところまで対応する。必要に応じて新規ブランチの作成やプルリクエストの準備まで行うことで、人間の開発フローに組み込みやすくなっている。
Claude Codeはまだ限定的なリサーチプレビュー段階だが、Anthropic社内ではすでにテスト駆動開発や大規模リファクタリングに不可欠な存在となっているという。
社内テストでは、人間が45分以上要するタスクを単一の自動フローで完了させることに成功するなど、大幅な効率化を実証している。
今後数週間で更なる機能拡充(長時間コマンドのサポートや、エージェントの自己能力理解向上など)が計画されており、開発者コミュニティからのフィードバックを取り入れて改善していくとのことだ。