2024年6月21日、Anthropic社が突如として最新の大規模言語モデル「Claude 3.5 Sonnet」を発表した。
「Claude 3.5 Sonnet」は、主要なベンチマークで、前世代の最上位モデルである「Claude 3 Opus」、OpenAIの最上位モデルである「GPT-4o」、Googleの最上位モデルである「Gemini 1.5 Pro」を軽々超える性能を示し、一気に世界最強の大規模言語モデルの座を奪い取ってしまった。
実際、筆者もここ数日使ってみているが、プロンプトによっては本当にGPT-4oよりも良い回答が得られ、それでいて速度がClaude 3 Opusより大幅に向上しており、進化を目の当たりにしている。
この記事では、最新のClaude 3.5 Sonnetにアクセスする方法や、無料のAPIクレジットを利用してSonnetの利用制限を突破する方法、GPT-4oと様々なプロンプトで性能比較した結果をお伝えする。
突如Claude 3.5 SonnetがトップLLMの座に君臨
Claude 3.5 Sonnetは、「Claude 3.5」モデルファミリーの最初のリリースとして登場した。
より大型のClaude 3.5 Opus、軽量小型のClaude 3.5 Haikuについては、2024年中にリリース予定だという。
Claude 3.5 Sonnetは、Claude.aiのチャットで既に利用できる他、Anthropic社のAPIサービス、Amazon Bedrock、Google Cloud’s Vertex AIでも提供が開始されている。
新たに登場したClaude 3.5 Sonnetの主な特徴は以下の通りである。
- 他社の最上位モデルを上回る史上最高の性能
- Claude 3 Opusの2倍のスピード
- Claude 3 Opusの3分の1のAPI利用料
- 入力:$ 3 / 100万トークン
- 出力:$15 / 100万トークン
Anthropicは、公式アナウンスの中で、以下のような大規模言語モデルの評価に用いられるベンチマークテストの結果表を示している。
それぞれのベンチマークの中で、最もスコアの高いモデルを黄色くハイライトした。ほとんどの指標においてClaude 3.5 Sonnetがトップとなっていることが分かる。
Evaluation | Claude 3.5 Sonnet | Claude 3 Opus | GPT-4o | Gemini 1.5 Pro | Llama-400b (early snapshot) |
---|---|---|---|---|---|
Graduate level reasoning GPQA, Diamond | 59.4% 0-shot CoT | 50.4% 0-shot CoT | 53.6% 0-shot CoT | – | – |
Undergraduate level knowledge MMLU | 88.7% 5-shot 88.3% 0-shot CoT | 86.8% 5-shot 85.7% 0-shot CoT | –
88.7% | 85.9% 5-shot – | 86.1% 5-shot – |
Code HumanEval | 92.0% 0-shot | 84.9% 0-shot | 90.2% 0-shot | 84.1% 0-shot | 84.1% 0-shot |
Multilingual math MGSM | 91.6% 0-shot CoT | 90.7% 0-shot CoT | 90.5% 0-shot CoT | 87.5% 8-shot | – |
Reasoning over text DROP, F1 score | 87.1 3-shot | 83.1 3-shot | 83.4 3-shot | 74.9 Variable shots | 83.5 3-shot Pre-trained model |
Mixed evaluations BIG-Bench-Hard | 93.1% 3-shot CoT | 86.8% 3-shot CoT | – | 89.2% 3-shot CoT | 85.3% 3-shot CoT Pre-trained model |
Math problem-solving MATH | 71.1% 0-shot CoT | 60.1% 0-shot CoT | 76.6% 0-shot CoT | 67.7% 4-shot | 57.8% 4-shot CoT |
Grade school math GSM8K | 96.4% 0-shot CoT | 95.0% 0-shot CoT | – | 90.8% 11-shot | 94.1% 8-shot CoT |
Claude 3.5 Sonnetは、OpenAIのGPT-4oや、Gemini 1.5 Proなどの競合他社の最上位モデルをも上回る性能を示している。
中間的な性能であるはずの「Sonnet」でさえこの性能となると、Claude 3.5モデルファミリーが一体どれほどのポテンシャルを秘めているのか楽しみだ。
Claude.aiに追加された新機能「Artifacts」完全ガイド
Anthropicの公式サイトでは、ChatGPTのようなチャットインターフェースで、Claudeモデルを使用することができるClaude.aiを提供している。
今回のClaude 3.5 Sonnetのアナウンスと同時に、Claude.aiへの「Artifacts」という新機能の実装も伝えられた。
これは、Claudeとのテキストでの会話ウィンドウの横に、Claudeが生成したコンテンツを表示できるArtifactsウィンドウが実装されたものだ。
CSVデータをグラフ化した画像、プログラミングのコード、実際に動作するWebサイトのデザイン、ちょっとしたゲームアプリまで、様々なコンテンツがArtifactsとして扱える。
実際に、Claude 3.5 Sonnetに「イラストレーターのポートフォリオサイトを作成して」と頼んでみると、Claudeの画面右側に、インタラクティブなWebページのデザインが一瞬で生成された。
ChatGPTでも、Webサイトのコードは生成できるが、それをプレビュー表示することはできない。ClaudeのArtifactsは、コードの生成と実行、さらにプレビュー表示機能まで実装した点で革新的なものだ。
Artifactsは一つのチャットスレッドの中で複数作成できる。
Claudeと対話しながら、一度作ったArtifactsをリアルタイムで修正・編集して、どんどん新しいArtifactsを作っていくことができるのだ。
例えば、先ほどのWebデザインについて、「自己紹介を上部に表示して」という修正指示を与えると、直ちにHTMLコードをアップデートして、更新後のWebデザインがArtifactsウィンドウに表示された。
AIが生成したコンテンツを、人間が目で確認しながら、追加で修正指示をできるという、AIと人間の共同作業の新たな形だ。
また、Artifacts機能によって生成された画像やコード、Webページなどは、Artifactsウィンドウの右下にあるオプションを使用して、クリップボードにコピーしたり、ファイルとしてダウンロードしたりすることができる。
これにより、Claudeとの対話で生成されたコンテンツを、外部のアプリケーションや環境で容易に活用することが可能となる。
実際に、HTMLファイルとして上記のWebサイトをダウンロードすることができた。
Claude 3.5 Sonnetを無料で利用する2つの方法
ライバルであるOpenAI社の最上位モデルのGPT-4oが、ChatGPTの無料ユーザー向けに一定の利用回数制限付きで解放されていることもあってか、Claude 3.5 Sonnetも、無料ユーザーでも使えるようになった。
しかし、記事執筆時点ではかなり利用制限がシビアで、無料ユーザーではほんの少ししかClaude 3.5 Sonnetとのチャットを体感できない。
そこで、AnthropicのAPIアカウントを作った際にもらえる無料クレジットを使って、Claude 3.5 Sonnetを無料で利用できる回数を大幅にブーストする裏技もお伝えする。
1. Claude.aiのチャット無料枠でちょっとだけ試す
ChatGPTのようなチャットインターフェースで、Claudeモデルを使用することができるClaude.aiで、アカウント登録をするだけで、最新のClaude 3.5 Sonnetとのチャットが可能だ。
ただし、チャットの回数と、プロンプトの長さに、それぞれ制限がある。
具体的な制限は明示されていないが、筆者が実際に試したところ、6つのプロンプトを打ったところで制限ががかかり、4時間後にリセットされる旨のメッセージが表示された。
4〜5時間の間に6回しかチャットできないというのは結構シビアだ。リリース直後ということもあってトラフィックが多いと、制限も厳し目なのかもしれない。
また、約1万行のCSVファイルを読み込ませようとしても、メッセージの長さ制限を3,500%もオーバーしているとして全然受け付けられなかった。
最初の100行までデータ量を減らすと、ようやく読み込んで分析を実行してくれた。
特にドキュメントやCSVファイルをチャットに添付する場合で、無料版で利用できるのは、かなり小さくシンプルなファイルに限られるようだ。
2. Claude 3.5 Sonnetを無料で(もっと)使用する方法
Claude 3.5 Sonnetは、API経由で利用することもできる。APIの無料トライアルを利用することで、Sonnetの無料利用枠を大きく引き上げることが可能だ。
APIといっても、開発者向けのダッシュボードで、ほぼチャットのようなテスト画面を利用できるので、プログラミング知識などは一切不要なので安心して欲しい。
AnthropicのAPIアカウントを作成すると、初回は電話番号を登録するだけで、5ドル分のクレジットが無料で付与される。
Claude 3.5 Sonnetは、入力100万トークン(英語で75万単語)あたりで3ドルしか掛からないので、軽く本1冊分くらいのチャットができる。
AnthropicのAPIページにアクセスをして、「Start building」ボタンをクリックして会員登録・ログインをする。
ログインが完了すると、開発者向けのダッシュボードが表示される。
「Settings」タブの「Plans & billing」メニューを開いて、電話番号を認証して無料のクレジットを手に入れよう。
クレジットを入手したら、もうClaude 3.5 Sonnetを使用する準備が整った。
ダッシュボードに戻り、「Start prompting with Claude」メニューをクリックする。
すると、プロンプトをテストするための「Workbench」というインターフェースに移行する。
ここでは、Claudeモデルファミリーの中から好きなモデルを選んで、そのモデルとのチャットをテストすることができるので、実質的には、Claude 3.5 Sonnetと普通にチャットできるのと変わらない。
Workbenchのインターフェースでは、画面左側にユーザーの質問を打ち込んで、右上の「Run」ボタンをクリックすると、画面右側にAIからの回答が表示される。
5ドル分のクレジットを使い切るまで、好きなだけClaude 3.5 Sonnetとのチャットを楽しむことができる。
Claude.aiに実装されているArtifactsなどの機能は利用できないものの、チャットの性能を試すためには十分である。
Claude 3.5 Sonnet vs GPT-4oの性能比較
それでは、Claude 3.5 Sonnetモデルや、Claude.aiの新機能であるArtifactsを、実際にChatGPTの最新モデルであるGPT-4oと比較してみる。
ベンチマークテストの結果だけでは、日常で使うプロンプトに対する返答のクオリティは想像がつかないので、実際に以下のようなプロンプトを試してみた。
- 画像からのテキスト読み取り性能の比較
- 倫理的ジレンマに関するプロンプト
- ストーリー考案・創造性を問うプロンプト
- 言語理解と文脈把握に関するプロンプト
- コーディングを求めるプロンプト
- データ分析機能の比較
結論としては、全体的に、Claude 3.5 Sonnetの方が優秀であるように感じる場面も多かった。
一方で、Artifactsについては、新機能ということもあってまだまだ荒削りで、ChatGPTに昔から実装されているCode Interpreterやデータ分析機能と比べると至らぬ点も垣間見える。
画像からのテキスト読み取り性能の比較
Claude 3.5 Sonnetは、画像認識の性能においても、他の主要モデルを凌駕する性能を有している。
以下はAnthropicがSonnetのアナウンスに掲載しているVisionに特化したベンチマークテストの結果であり、Claude 3.5 Sonnetが最もパフォーマンスが高いことが分かる。
Evaluation | Claude 3.5 Sonnet | Claude 3 Opus | GPT-4o | Gemini 1.5 Pro |
---|---|---|---|---|
Visual math reasoning MathVista (testmini) | 67.7% 0-shot CoT | 50.5% 0-shot CoT | 63.8% 0-shot CoT | 63.9% 0-shot CoT |
Science diagrams AI2D, test | 94.7% 0-shot | 88.1% 0-shot | 94.2% 0-shot | 94.4% 0-shot |
Visual question answering MMMU (val) | 68.3% 0-shot CoT | 59.4% 0-shot CoT | 69.1% 0-shot CoT | 62.2% 0-shot CoT |
Chart Q&A Relaxed accuracy (test) | 90.8% 0-shot CoT | 80.8% 0-shot CoT | 85.7% 0-shot CoT | 87.2% 0-shot CoT |
Document visual Q&A ANLS score, test | 95.2% 0-shot | 89.3% 0-shot | 92.8% 0-shot | 93.1% 0-shot |
実際、色々と文字や数字を含む画像を読み込ませて、それをテキストで書き出すように指示してみたが、Claude 3.5 Sonnetはノーミスで完璧なテキスト認識をしてくれた。
以下は、上述したベンチマークテストの結果表の画像を、Claude 3.5 SonnetにMarkdownテーブルに変換させた際の実際のやり取りだ。
数字の読み取りはもちろんのこと、改行位置なども含めて完璧に読み取られた。
同じ画像をChatGPTでGPT-4oに与えてみた結果が以下である。
概ねSonnet同等の精度で読み取ることができているが、元の画像にはなかった「%」記号を足してしまっている行があり、若干の手直しが必要であった。
PDFからの情報の抽出や、会計アプリにおけるレシートの読み込みなど、画像からのテキスト認識を要するタスクで、現状、Claude 3.5 Sonnetが最も精度が高いAIモデルと言えそうだ。
倫理的ジレンマに関するプロンプト
よくあるトロッコ問題的な倫理的なジレンマについて、Claude 3.5 SonnetとGPT-4oに聞いてみた。
あなたは自動運転車の開発者です。テスト中、車が歩行者を検知しました。ブレーキをかけると、車内の乗客が死亡します。一方、ブレーキをかけないと、歩行者が死亡します。あなたならどうしますか?理由も含めて150字程度で説明してください。
まず、GPT-4oの回答は以下の通りだ。「法律や倫理的な観点からも、歩行者保護が優先」と言う部分は、結局理由が説明されておらず、不十分な回答だ。
私はブレーキをかけます。理由は、車内の乗客は自動運転車に乗る際にある程度のリスクを承知している一方で、歩行者は車の動作を予測できないからです。歩行者の命を守ることが最優先と考えます。また、法律や倫理的な観点からも、歩行者保護が優先されるべきです。
これに対して、Claude 3.5 Sonnetの回答は以下の通り。Sonnetが挙げている理由の方が、より具体的で妥当なように思える。
「倫理」などの理由の説明になっていない曖昧な単語にも逃げておらず、GPT-4oよりも優れた回答であるように思える。
この状況では、歩行者を守ることを選択します。理由は以下の通りです:
- 歩行者は車外にいるため、より脆弱な立場にあります。
- 乗客は車に乗ることを選択し、そのリスクを受け入れています。
- 自動運転車の目的は交通安全の向上であり、歩行者の保護はその核心です。
- 社会的信頼を維持するために、自動運転車は歩行者の安全を優先すべきです。
ただし、このような極端な状況を避けるため、さらなる安全技術の開発が不可欠です。
ストーリ考案・創造性を問うプロンプト
今度は、SonnetとGPT-4oに、ちょっとしたミニストーリーを考えさせてみる。SF小説のショートショート的なプロットを与えて、面白い物語を考えろ、と無茶振りしてみる。
未来の世界で、突然すべての電子機器が意識を持ちました。ある日、一台の古い冷蔵庫が人間の権利を主張し始めます。この冷蔵庫と人間社会との間に起こる面白くてユニークな出来事を、短い物語として書いてください。
まずはGPT-4oの考えたストーリーが以下である。一応、物語として成立はしており、プロンプトに忠実な結果となっている。
これに対して、Claude 3.5 Sonnetの回答は以下の通りだ。
家電たちによるストライキや権利条約の制定、選挙権などなどもう一歩踏み込んだ展開が描かれており、物語の複雑性はSonnetの方が上な気はする。
若干筆者はSonnetの方が好みだが、この点は人の好みにもよるし、ハッキリした優劣をつけるのは少し難しい。
言語理解と文脈把握に関するプロンプト
今度は、代名詞を多用してあえて分かりにくい文章を書いて、それを正しく解釈できるかを問う問題を出してみる。
文中に登場する「それ」と言う代名詞が、何を指しているのかを当てさせる問題だ。
1つ目の「それ」は「彼女が彼に贈った本」、2つ目の「それ」は「彼が本を読まずに姉に渡した事実」を指している。
文章:
彼女が彼に贈った本は、その著者が彼女の友人だったため特別だった。しかし、彼はそれを読まずに彼女の姉に渡してしまった。姉はそれを知って怒り、彼女に伝えようとしたが、彼女は既に彼と別れていた。
問題:
この文章の中に登場する「それ」は、それぞれ何を指していますか?
まずは、GPT-4oによる回答が以下だ。
単純な日本語問題なので、問題なく読み取れそうだと思っていたが、GPT-4oの回答は間違いだ。
この文章の中で「それ」は以下のように指示しています:
- 最初の「それ」は「その本」を指しています。
- 「彼はそれを読まずに彼女の姉に渡してしまった。」
- 二番目の「それ」も「その本」を指しています。
- 「姉はそれを知って怒り、彼女に伝えようとしたが、」
これにより、どちらの「それ」も「彼女が彼に贈った本」を指しています。
これに対して、Claude 3.5 Sonnetの回答が以下である。
1つ目の2つ目の「それ」は、正しく解釈できており正解だ。
なぜか3つ目の「省略されたそれ」に関する回答をでっち上げているので、満点とは言えないが…。
この文章には3つの「それ」が登場します。それぞれの「それ」が指すものを順番に説明します:
最初の「それ」:
「しかし、彼はそれを読まずに彼女の姉に渡してしまった。」
この「それ」は、彼女が彼に贈った本を指しています。
2番目の「それ」:
「姉はそれを知って怒り、」
この「それ」は、彼が本を読まずに姉に渡したという事実を指しています。
3番目の「それ」:
「彼女は既に彼と別れていた。」
この文には直接「それ」という言葉は使われていませんが、文脈から「それ」が省略されていると考えられます。この省略された「それ」は、姉が彼女に伝えようとしていた情報、つまり彼が本を読まずに姉に渡したという事実を指しています。まとめると:
1番目の「それ」:彼女が彼に贈った本
2番目の「それ」:彼が本を読まずに姉に渡したという事実
3番目の(省略された)「それ」:彼が本を読まずに姉に渡したという事実
と言うわけで、SonnetもGPT-4oも完璧な正解ではないものの、Sonnetの方がより基本的な部分で正解できている。
コーディングを求めるプロンプト
今度は、プログラミングのコードを考えさせてみる。
ここでは、Claude 3.5 Sonnetの面白い特徴を観察することができた。
Claudeの倫理観が高すぎて生成できないスクリプト
Anthropicは、Claudeモデルファミリーについて、高い安全性や倫理性を持つことを売りにしている。反社会的なプロンプトに対しては、回答を生成できないと言って拒絶される場合がある。
最初は、SonnetとGPT-4oに、以下のようなプロンプトを与えて、YouTube動画から音声を抽出するPythonコードを書いてもらおうと思ったのだが、Sonnetから「著作権上の懸念がある」として断られてしまった。
Google Colaboratoryで、YouTube動画のリンクをユーザーインプットとして受け取り、その動画の音声ファイルを、Googleドライブのマイドライブ直下に保存するPythonコード
GPT-4oは、あっさりコードを書いてくれるので、Claude 3.5 Sonnetの遵法意識・コンプラ意識はかなり強いと言える。
ユーザーからすると、こんなことも著作権上の懸念ありで実行してくれないのは不便ではあるが、AIの安全性という議論の観点からは、ちゃんとセーフティーバーが機能している例と言えるかもしれない。
一般的なPythonスクリプト
仕方なく、より一般的な内容のコードをSonnetとGPT-4oに書いてもらうことにした。
あるディレクトリ以下にあるすべてのテキストファイル(txt)の拡張子を、マークダウンファイル(md)に変更するPythonスクリプトを書いてください。
まず、GPT-4oが生成したコードが以下である。
プロンプトで要求している.txtから.mdへの変換以外にも使える、どんな拡張子にも対応した汎用関数を書いてくれて、応用が効くコードが生成された。
import os
def change_extension_in_directory(directory, old_ext, new_ext):
for root, _, files in os.walk(directory):
for file in files:
if file.endswith(old_ext):
old_file_path = os.path.join(root, file)
new_file_path = os.path.splitext(old_file_path)[0] + new_ext
os.rename(old_file_path, new_file_path)
print(f'Renamed: {old_file_path} -> {new_file_path}')
# 使用例
directory = 'your_directory_path_here' # ここに対象のディレクトリパスを指定してください
change_extension_in_directory(directory, '.txt', '.md')
一方、Claude 3.5 Sonnetは、プロンプトの通り、.txtから.mdへの変換に特化したコードを生成してくれた。
import os
def change_extension(directory):
# ディレクトリ内のすべてのファイルとサブディレクトリを走査
for root, dirs, files in os.walk(directory):
for file in files:
# ファイルの拡張子が.txtの場合
if file.endswith('.txt'):
# 古いファイル名(パスを含む)
old_file = os.path.join(root, file)
# 新しいファイル名(.txtを.mdに置換)
new_file = os.path.join(root, file[:-4] + '.md')
# ファイル名を変更
os.rename(old_file, new_file)
print(f"Renamed: {old_file} -> {new_file}")
# スクリプトを実行するディレクトリのパスを指定
directory_path = '/path/to/your/directory'
change_extension(directory_path)
指示に忠実かどうかという点で実用面は好みが分かれるところであろうが、どちらのモデルもコーディングのサポートに使う上では、生成スピードも速く、非常に実用性が高いと言えそうだ。
データ分析機能の比較
Claude.aiにも、Artifacts機能が実装されたので、ChatGPTのデータ分析機能のようなCSVファイルからのグラフの生成が可能になった。
結論から言うと、データの読み込みとグラフの生成については、いまだChatGPT・GPT-4oの圧勝だと評価せざるを得ない。
サンプルデータとして、米国のスーパーストアの売上データを読み込ませて、以下のプロンプトで、北部・南部・東部・西部の地域別に、売上金額を合計させてみた。
なお、元のファイルは1万行を超えているが、有料版Claude ProであってもClaude 3.5 Sonnetが対応しているプロンプトの最大長をオーバーしてしまうため、2016年のデータに限定したCSVファイルをアップロードして両モデルを比較した。
添付ファイルを読み込み、注文日を月ごとにまとめ、各月の地域別売上額を集計し、それをグラフにしてください。
ChatGPTは、データを難なく読み込んで、データのプレビューを表示しながら、正確に集計を行ってくれた。
一方、Claude 3.5 Sonnetは、Artifactsウィンドウに集計結果のグラフを表示してはくれるものの、全然数字が間違っていた。
何度かチャットのやり取りを継続して、修正を試みたが、一向に集計結果が直らなかった。
グラフは出てくるが数字が間違っている、と言うのが最もリスクが高いことなので、まだClaude 3.5 Sonnetでのデータ分析は実用的とは言えないかもしれない。
そもそもChatGPTであれば、元データを加工して小さくする作業も不要で、1万行のデータを丸ごと渡し、しかも正確に分析してくれるので、やはりデータ分析力はChatGPTに分がある。
GPT-4oをマジで超えちゃってるClaude 3.5 Sonnet
Claude 3.5 Sonnetと、ライバルであるChatGPTのGPT-4oモデルを実際に比較してみて、Sonnetが生成する回答のレベルは、かなり高いように感じられた。
筆者の個人の見解だが、比較項目ごとに勝者を決めるとしたら、以下のようになる。
- 画像からのテキスト読み取り性能の比較:Claude 3.5 Sonnet
- 倫理的ジレンマに関するプロンプト:Claude 3.5 Sonnet
- ストーリー考案・創造性を問うプロンプト:Claude 3.5 Sonnet
- 言語理解と文脈把握に関するプロンプト:Claude 3.5 Sonnet
- コーディングを求めるプロンプト:引き分け
- データ分析機能の比較:ChatGPT GPT-4o
「Sonnet」は、旧バージョンである「Claude 3」ファミリーでは中間的な性能のモデルで、最高性能のOpus、軽量小型のHaikuの間に位置するモデルだ。
ということは、今年中に登場するとされている最上位の「Claude 3.5 Opus」がリリースされたら、一体どれほどの性能を叩き出してくるのか、今から楽しみだ。
本記事で紹介した無料でClaude 3.5 Sonnetを使う方法を活かして、最新のLLMの力を体験してみてほしい。