AIじゃないよ

Llama 4 Scout / Maverick 完全ガイド:GPT-4oを超えるオープンソースモデル&マルチモーダル対応!

当サイトはアフィリエイト広告を一部掲載しています。

Metaが2025年4月5日、オープンソースLLMであるLlamaの新世代モデル「Llama 4」シリーズを発表した

今回のリリースでは、小型の「Llama 4 Scout」、中型サイズの「Llama 4 Maverick」の2モデルが登場した。両モデルは、早速公開され、既にダウンロードして利用可能になっている。

「Llama 4 Maverick」は、人間の投票によりLLMをランキングするベンチマーク「Chatbot Arena」において、同じく登場したばかりのGemini 2.5 Proに次いで、世界2位につけている。

この性能のモデルが、オープンソースで誰でも利用できる恩恵を考えると、ただただMetaに感謝するしかない。

Chatbot Arena(2025/4/6時点)

また、より大型で高性能な「Llama 4 Behemoth」が開発中であることも明かされ、一部のベンチマーク結果も公開された。

Llama 4 Behemothは、特にSTEM関連のベンチマークで、GPT-4.5やClaude Sonnet 3.7、Gemini 2.0 Proなどのトップクラスの商用モデルを上回る性能を示している。

本記事では、Llama 4シリーズの特徴・性能をまとめるとともに、実際に「Llama 4 Scout」と「Llama 4 Maverick」を試してみる方法を紹介する。



Llama 4 Scout / Maverick の概要と特徴

今回リリースされた「Llama 4」シリーズは、以下の2モデルだ。

  • Llama 4 Scout: 17Bのアクティブパラメータと16エキスパート、合計109Bのパラメータを持つモデル。業界最長の1000万トークンという脅威のコンテキストウィンドウを提供。単一のNVIDIA H100 GPU上で動作するほど高速(Int4量子化使用時)。
  • Llama 4 Maverick: 17Bのアクティブパラメータと128エキスパート、合計400Bのパラメータを持つ高性能モデル。GPT-4oやGemini 2.0などの大手商用モデルを多くのベンチマークで上回る性能を持ち、推論コストも大幅に低い。

これらのモデルはすべてオープンウェイト(Open-Weight)であり、すでに誰でもデータをダウンロードして利用できるようになっている(但し、かなり高スペックなGPUが必要)。

また、Metaのリリースによれば、最も高性能な「Llama 4 Behemoth」が、現在トレーニング中とのこと。

「Llama 4 Behemoth」は、合計約2兆ものパラメータを持つ超大型モデルだ。Scout/Maverickも、このBehemothを「教師モデル」として、蒸留されているのだという。

Llama 4 シリーズの前世代と比べた特徴は主に以下の通りだ。

  • ネイティブマルチモーダル対応:テキストだけでなく画像も読み込むことが可能
  • MoEアーキテクチャの採用:計算効率が向上し、少ない計算リソースでより高品質な出力を実現
  • 超長コンテキストウィンドウ:業界初の1,000万トークン対応(Scout)で、新たな応用可能性が拡大
  • 日本語能力の改善:200の多言語でトレーニングされており、筆者のテストではScoutの日本語力もかなり高かった

Mixture of Experts(MoE)とは、大規模言語モデル(LLM)の効率性と性能を向上させるための手法である。

モデルを複数の専門的なサブネットワーク(「エキスパート」)に分割し、入力ごとに一部のエキスパートのみを活性化することで(”疎”な活性化)、モデルの大型化と高性能化を実現しながらも、計算負荷を大幅に削減できる。

Llama 4 のマルチモーダル性能と日本語能力を試してみた

既にいくつかのクラウドサービス上で、Llama 4 Maverick も Scout も利用可能になっているので、早速テストしてみた。

まず、マルチモーダル性能を実際に試してみたところ、特にMaverickでは、画像からの表・数値データの読み取りなどもかなり正確だった。

PDFなどの非構造化データからのOCRなどの用途でも活用できそうだ。

また、従来のLlama 3シリーズの小型軽量モデル達は、日本語能力に結構難があったところ(例:文法がおかしい、顔文字連発、etc,)、今回の「Llama 4 Scout」に日本語で質問してみると、長文でも完璧な返答が返ってきた。

最もパラメータ数の少ない「Llama 4 Scout」でも、実用には十分すぎる日本語力を有している。

この性能の日本語対応LLMが、ローカル環境でもGPU1台で動いてしまうとなると、日本企業においても応用の幅が広がりそうだ。

MoEアーキテクチャは、計算負荷が低く、Mac mini / Studioなどの高メモリのローカルデバイスと相性がいいと思われるので、MacとLlama 4を組み合わせてローカルLLMシステムを構築する、というのは現実的な選択肢になりつつある。

また、Llama 4 Scoutは、業界最長となる1000万トークンという脅威的な量のコンテキストウィンドウを持つ(Llama 3は12.8万トークンだった)。

大量の書籍の解析、大規模コードベースの読み込みなどに役立ちそうだが、現時点では、Groq, together.ai, fireworks.aiなどの各クラウドプロバイダ側でトークン数に制限があり、1,000万トークンのテストは実施できなかった。

Llama 4を実際に使ってみる方法まとめ(無料もあるよ)

Llama 4 ScoutとLlama 4 Maverickは、すでにオープンソースのAIモデルを利用できるクラウドサービス各社で利用可能になっている。

自分のPCなどローカル環境にダウンロードして使うことも可能だが、個人レベルでは滅多に所有している人がいないであろう超高性能なPCが必要になるため、本記事ではクラウド上で利用する方法のみを紹介する。

リリース直後の現在、無料で利用できる方法として「Groq Cloud」が、有料のクラウドサービスとして「together.ai」と「fireworks.ai」などがある。

秒速500トークン超!Groq Cloud で爆速 Llama 4 を無料で試す

Groqは、LLMの推論処理に最適化された独自のプロセッサ「LPU」を開発・提供する企業である。

GPUと比較して、はるかに高速なトークン生成速度と低レイテンシを実現する。Groq Cloudは、このLPUを活用したクラウドサービスであり、API経由でLlamaを含む様々なLLMを利用できる。

アカウントを作るだけで、無料で利用することができるので、Llama 4をトライアル的に触りたいという目的には最適だ。

課金すればレートリミットが緩和され、アプリやシステムに組み込んで商用開発にも耐えうる利用ができるが、個人で試す程度の用途では、無料アカウントで十分だ。

まずは、Groq Cloudの開発者コンソールにアクセスして、アカウントを作成する。クレカ登録も不要で無料アカウントが利用できる。

ログインしたら、上部のメニューから「Playground」をクリックする。

Playgroundでは、チャット風のインターフェースで、Groq Cloud上で利用できる全てのモデルをテストすることができる。

モデルのプルダウンメニューで、Llama 4 を選択すれば、すぐに利用できる。

Groqの公式アナウンスによれば、Llama 4 Scout, Llama 4 Maverickの両方が利用できるようになったと記載されているが、日本時間の2025年4月6日現在(Llama 4の公開当日)、まだMaverickは選択することができない。恐らく後で追加されるはずだ。

Groq上でのLlama 4 Scoutによる生成スピードは、とんでもなく早い。これまでも過去のLlamaモデルを高速で提供してきたGroqだが、今回も流石のパフォーマンスだ。

Llama 4 Scoutに適当に質問してみたところ、1秒あたり500トークンというとんでもないスピードで回答が生成された。ほぼリアルタイムで長文の返答が返ってくるような感覚だ。

ちなみに、1分間に30リクエストまで無料で利用できるので、普通の使い方ならば課金する必要はない。

アプリに組み込んで開発する場合などで、仮に課金プランに移行した場合、Llama 4 Scout, Llama 4 MaverickのAPI利用料金は以下の通りだ。

  • Llama 4 Scout: $0.11 / 100万入力トークン, $0.34 / 100万出力トークン
  • Llama 4 Maverick: $0.50 / 100万入力トークン, $0.77 / 100万出力トークン

OpenAIのGPT-4oのAPIコスト(入力$3.75・出力$15)と比べて、圧倒的に安価なので、大量のテキストを処理する必要があるアプリやシステムでは、Groqの提供するLlama 4 Maverickはかなり魅力的な選択肢になりそうだ。

Llama 4 Maverick を利用できるGPUプロバイダー(有料)

先述の通り、Llama 4 リリース当日の現在(日本時間4月6日)、まだGroq CloudにLlama 4 Maverickが実装されていない。

もしMaverickを急ぎ試してみたい場合には、他社のGPUクラスタプロバイダーを利用することになる。

現在、主要なクラウドプロバイダのうち、Llama 4 Scout, Llama 4 Maverickを提供しているものとしては、together.aiや、fireworks.aiなどの米国企業がある。

これらのサービスも、基本的に使い方はGroqと一緒で、開発者アカウントを作って、「Playground」で各モデルをテストするか、API経由でPythonプログラムなどの中で利用するかだ。

以下、together.aiの場合の例を紹介する。

together.aiは、新規の会員登録時に、無料のAPIクレジットを付与してくれるため、とりあえずMaverickだけ試したい場合にも最適だ。

まずはtogether.aiのトップページにアクセスして、アカウントを開設する。現在、Llama 4に対応したことのアナウンスが大々的に表示されている。

アカウントにログインして、「Models」メニューから、利用したいモデルを選択する。

Llama 4 Maverickと、Llama 4 Scoutを選択できるようになっている。モデルを選んで、「Open in Playground」を選択すれば、チャット風のインターフェースで動作をテストできる。

Playgroundでは、画像のアップロードも可能なので、Llama 4 Maverickに、牛丼の画像を見せてレシピを考えてもらってみた。

1秒あたりの生成トークン数は57と平均的なスピードだが、Maverickのテキスト性能・画像認識性能を試すことができる。

Playground

スピードで言えば、Groq Cloudの右に出るものはいないが、together.aiなどのクラウド各社は、オープンソースモデルを好きなようにファインチューニングして、そのカスタマイズしたモデルをAPIで利用できるというメリットがある。

Llama 4シリーズをカスタマイズして、自社特有の課題を解決するためにファインチューニングする等の用途では、有用な選択肢だ。

Llama 4シリーズのベンチマーク結果

Metaのニュースリリースの中では、Llama 4 Scout / Maverick / Behemoth それぞれについて、同等サイズと思われる他社LLMとスコアを比較したテーブルが示されている。

以下、3つのモデルそれぞれについて、ベンチマークスコアの要点をまとめていく。

結論としては、いずれのモデルも、同クラスの他社モデルと肩を並べる優れた性能を有している。

とはいえ、一般的にベンチマークスコアはあくまで数値上の微妙な差異なので、実際に使用した際に、どこまで性能を体感できるかはまた別問題とも言える。

その点、Llama 4シリーズは、人間が投票してランキングを決める「Chatbot Arena」でも、Maverickが総合2位につけ、さらにコーディングなどの個別カテゴリではMaverickが1位になっていたりするため、実用上も大いに期待できそうだ。

Chatbot Arena の Coding カテゴリ(2025/4/6時点)

Llama 4 Scout:前世代の最大モデル Llama 3.1 405B をも上回る性能

Scoutは、今回リリースされたモデルの中では最も軽量で、総計1090億パラメータ(109B)を持つモデルだ。

旧世代の中型モデルであるLlama 3.3 70Bを上回っているのはもちろん、旧世代の最大モデルであるLlama 3.1 405Bと比べても、推論・知識関連のスコアが改善している。

他社の軽量なマルチモーダルモデル(Gemma 3やMistral 3.1、Gemini 2.0 Flash-Lite)と、画像認識関連のスコアを比較してみても、Scoutの方が優れている。

カテゴリベンチマークLlama 4 ScoutLlama 3.3 70BLlama 3.1 405BGemma 3 27BMistral 3.1 24BGemini 2.0 Flash-Lite
画像推論MMMU69.464.962.868.0
 MathVista70.767.668.957.6
画像理解ChartQA88.876.386.273.0
 DocVQA (test)94.490.494.191.2
コーディングLiveCodeBench32.833.327.729.728.9
推論・知識MMLU Pro74.368.973.467.566.871.6
 GPQA Diamond57.250.549.042.446.051.5
Llama 4 Scout のベンチマーク(出典:Metaのリリース

105Bと従来のLlama 3.3 70Bと比べると比較的大型だが、MoEアーキテクチャによって計算負荷が抑えられ、一台のNVIDIA H100 GPUで動かせる。

この軽量さで、従来の最大モデルだったLlama 3.1 405Bの性能すらも上回っているのは目覚ましい進歩だ。

先述の通り、Llama 4 Scoutに日本語で質問してみたところ、完璧な日本語が返ってきたので、多言語性能も十分に高い。日本でもローカル環境でLlama 4 Scoutを実用する例が広がりそうだ。

Llama 4 Maverick:世界2位に躍り出たコスパ最強モデル

Llama 4 Maverickは、109BのScoutを大きく超える400Bパラメータを持つモデルで、非常に高い性能と、優れた計算効率が特徴だ。

画像関連タスクや知識分野で、GPT-4oも上回るスコアを記録しており、非推論モデルとしてはトップクラスの性能を有すると言って良いだろう。

それでいて、GPT-4oのAPIコスト(OpenAI:入力$3.75・出力$15)と比べると、Maverickの方が圧倒的に安価に利用できる(Groq:入力$0.5・出力$0.77)ので、コストパフォーマンスが抜きん出ている。

カテゴリベンチマークLlama 4 MaverickGPT-4oDeepSeek v3.1Gemini 2.0 Flash
画像推論MMMU73.469.171.7
 MathVista73.763.873.1
画像理解ChartQA90.085.788.3
 DocVQA(test)94.492.8
コーディングLiveCodeBench43.432.345.8/49.234.5
推論・知識MMLU Pro80.581.277.6
 GPQA Diamond69.853.668.460.1
多言語Multilingual MMLU84.681.5
Llama 4 Maverick のベンチマーク(出典:Metaのリリース

Llama 4 Behemoth:蒸留にも使われた教師モデル

Llama 4 Behemothは、まだ開発中でリリースされていないが、他のモデルとはケタが違う「2兆」パラメータを持つ超大型モデルだ。

Metaがプレビューしたベンチマークスコアを見ると、Claude Sonnet 3.7やGemini 2.0 Pro、GPT-4.5といったトップクラスの商用モデルと肩を並べる性能であるようだ。

Behemothは、特に数学(MATH-500)やコーディング(LiveCodeBench)といったSTEM分野で非常に高い性能を示している。

 カテゴリ・ベンチマークLlama 4 BehemothClaude Sonnet 3.7Gemini 2.0 ProGPT-4.5
コーディングLiveCodeBench49.436.0
推論・知識MATH-50095.082.291.8
 MMLU Pro82.279.1
 GPQA Diamond73.768.064.771.4
多言語Multilingual MMLU85.883.285.1
画像推論MMMU76.171.872.774.4
Llama 4 Behemoth のベンチマーク(出典:Metaのリリース

この高い能力が、教師モデルとして蒸留に使われ、ScoutやMaverickモデルの性能向上に貢献している。

Llama 4のインパクトと今後への期待

今回発表されたLlama 4シリーズの3モデルは、最小のScoutでさえ、過去に発表されたLlama 3シリーズの全てを上回る性能を有する。

MoEアーキテクチャの採用により計算負荷が低減され、1000万トークンという未曾有のコンテキストウィンドウを誇り、またネイティブマルチモーダル機能により画像の読み込みも可能になるなど、前世代のLlamaシリーズから大幅な進化を遂げた。

そしてもちろん、特筆すべきは、これほどの高性能モデルが、オープンソースで公開され、誰でもダウンロード・カスタマイズが可能である点だ。

GPT-4oよりも大幅に安価に利用できるため、企業における大規模なAI導入を加速させることが期待される。

一方で、今回の発表には含まれておらず、今後の展開について、気になる点も残っている。

小型モデルはリリースされるのか?

今回発表されたLlama 4シリーズは、MoEアーキテクチャにより効率化されてはいるものの、最小のScout(109B)ですら、普通の個人向けGPUで動かすのは難しい。

Llama 3シリーズは、8Bと70Bから始まり、後に405Bの大型モデル、さらに1B、3B、11B、90Bと多様なサイズのモデルへと拡大した。

特に3BモデルはiPhoneでも実用的なスピードで動作したので、当サイトでもスマホで動かす方法を紹介していたくらいだ。

Llama 4においても同様に、スマートフォンで動作する3B程度のモデルや、ラップトップで効率的に実行できる20B程度のモデルが登場することに期待したい。

1000万トークンのコンテキストウィンドウを実用化できるか?

1000万トークンという前例のないコンテキストウィンドウに、Llama 4 Scoutがモデルとして対応していることと、それを実際に実装する計算資源が用意できるかどうかは、また別の話だ。

実際、Groqなどのクラウドプロバイダーは、現状では10万トークン強にコンテキストウィンドウのキャップが設定されており、1000万トークンは利用できない。

GPUなどハードウェア面の進歩と、クラウドプロバイダーによるソフトウェア面での最適化の両方が進み、実際に1000万トークン長を扱える日が来ることに期待したい。

「学習スケーリング」の限界と「推論スケーリング」の有効性

今回リリースされたLlama 4シリーズは、いずれも推論モデル(reasoning model)ではない、という点に注意が必要だ。

推論モデルとは、OpenAIのo1, o3や、AnthropicのClaude 3.7 SonnetのExtended Thinkingモードなど、LLMが回答を生成する前に、途中の思考・自問自答の過程を生成して「考える」時間をとってから、最後に回答を生成するモデルだ。論理の飛躍を防ぐことができ、複雑な思考ステップが必要な問題で、正しい答えに辿り着く可能性が高まる。

従来のように事前のトレーニングの量を増やしモデルを大型化することに計算資源を投下する(Train-time Compute)のではなく、実際の問題について計算する段階で計算資源を投下する(Test-time Compute)ことで、比較的軽量で高速なモデルであっても、高度な問題解決をすることが可能になる。

Llama 4シリーズは、徹底して大型化しMoEによる計算効率を高めた「非推論モデル」としては最高性能付近に到達していることは間違いないが、真に他社の推論モデルと最高性能の座を争うためには、「推論モード」の実装が待たれる。

o1, o3などの推論モデルは、特に数学などの高度な推論・思考ステップを要する問題で、優れた性能を発揮する。

今回のLlama 4のリリースの中では、すべてのベンチマーク表から、推論モデルが除外されていた。推論モデルを比較対象に入れたら、推論モデルに負けてしまうからだろう。

当然、Metaもそのことは認識しているであろうから、Llamaシリーズから推論モデルが登場する日を楽しみにしておきたい。



Make a comment

*
*
* (公開されません)