2026年2月17日(旧暦正月)に合わせ、中国AI各社がフロンティアモデルを一斉にリリースした。
Alibaba(Qwen 3.5)、Z.ai(GLM-5)、MiniMax(M2.5)、Moonshot AI(Kimi K2.5)の4社がオープンウェイトで公開し、あのDeepSeekもV4の投入が間近と見られている。
ちょうど1年前、DeepSeek R1/V3が登場し、中国発のオープンソースモデルが、OpenAIやGoogleの最新モデルと並ぶ性能を持つことを証明し、世界に衝撃を与えた。
あの「DeepSeekショック」以降、中国AI各社は熾烈な競争を続けており、各社がDeepSeek V4の発表前に見出しを飾ろうと競い合った結果、2026年の春節が「モデル発表週間」と化したようだ。
注目すべきは、いずれのモデルも、Claude Opus 4.6やGPT-5.2に匹敵するベンチマークスコアを叩き出しながら、API料金は米国モデルの1/5から1/40という破格の水準にあることだ。
しかも全モデルがオープンウェイトで公開されており、APIだけでなくローカル環境での実行も視野に入る。
本記事では、この春節に登場した5つの中華系AIモデル(登場見込み含む)について、それぞれの強みやベンチマークをまとめるとともに、実際に使ってみる方法を紹介する。
中国発オープンウェイトAIの最新ベンチマーク・料金まとめ
中国の春節前後に立て続けにリリースされた中華系のAIモデルの最新世代について、それぞれのスペックをまとめると以下のようになる。
いずれも、高い性能を有しながら、オープンウェイトで、商用利用可能なライセンスが設定されているのが特徴だ。
| 項目 | Qwen 3.5 | GLM-5 | MiniMax M2.5 | Kimi K2.5 | DeepSeek V4 (未発表) |
|---|---|---|---|---|---|
| 開発元 | Alibaba | Z.ai (旧Zhipu) | MiniMax | Moonshot AI | DeepSeek |
| リリース日 | 2/16 | 2/11 | 2/12 | 1/26-27 | 未発表 |
| 総パラメータ | 397B | 744B | 230B | 1T | ~1T? (リーク) |
| アクティブパラメータ | 17B | 40B | 10B | 32B | ~32B? (リーク) |
| コンテキスト長 | 1Mトークン | 200K | 205K | 256K | 1M (確認済) |
| マルチモーダル | ビジョン+言語 | テキストのみ | テキストのみ | ビジョン+言語 | 不明 |
| ライセンス | Apache 2.0 | MIT | MIT | Modified MIT | 未定 |
技術的な特徴で言えば、すべてがMixture-of-Experts(MoE)アーキテクチャを採用している。
MoEとは、モデル全体の一部のパラメータだけを推論時に活性化させることで、巨大なモデルの知識を保ちつつ計算コストを抑える設計手法である。
Qwen 3.5は397Bのうち17Bだけ、MiniMax M2.5は230Bのうちわずか10Bだけがアクティブになる。
この「総パラメータは巨大だが実行コストは軽い」という構造が、高性能と低料金を両立する主要な要因となっている。
性能面を比較すると、各モデルのベンチマーク結果は以下のとおりだ。
| ベンチマーク | Qwen 3.5 | GLM-5 | MiniMax M2.5 | Kimi K2.5 | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|---|---|---|
| SWE-Bench Verified | 76.4% | 77.8% | 80.2% | 76.8% | 80.9% | 80.0% |
| AIME 2025 | 91.3 | 92.7 | — | 96.1 | 92.8 | 100 |
| GPQA-Diamond | — | 86.0 | — | 87.6 | 87.0 | 92.4 |
| BrowseComp | 69.0 | 76% | 76.3% | 78.4 | 37.0-59.2 | 57.8-65.8 |
| LiveCodeBench v6 | 83.6 | — | — | 85.0 | 82.2 | — |
| Terminal-Bench 2.0 | — | 56.2% | — | 50.8 | 59.3 | 54.0 |
コーディング能力の指標であるSWE-Bench Verifiedでは、MiniMax M2.5が80.2%でClaude Opus 4.6(80.9%)に肉薄し、中国モデル勢のトップに立っている。
数学・推論(AIME 2025)ではKimi K2.5が96.1と突出し、GPT-5.2の100に次ぐ成績だ。
Web検索・ブラウジング能力を測るBrowseCompでは、中国モデル勢が軒並み米国モデルを大きく上回っている点が目を引く。
ベンチマークスコアは各社の自社報告が中心である。Artificial Analysisによる独立評価が公開されているのはGLM-5とMiniMax M2.5のみで、Qwen 3.5とKimi K2.5はまだ独立検証を待っている段階だ。自社報告のスコアは参考値として捉えてほしい。
それでいて、価格が劇的に安いことも見逃せない。
| モデル | 入力 ($/1Mトークン) | 出力 ($/1Mトークン) | 合計 |
|---|---|---|---|
| MiniMax M2.5 | $0.15 | $0.60 | $0.75 |
| MiniMax M2.5 Lightning | $0.30 | $2.40 | $2.70 |
| Qwen 3.5-Plus (国際版) | $0.40 | $1.20 | $1.60 |
| Kimi K2.5 (キャッシュミス) | $0.60 | $3.00 | $3.60 |
| GLM-5 | $1.00 | $3.20 | $4.20 |
| Claude Opus 4.6 (参考) | $5.00 | $25.00 | $30.00 |
| GPT-5.2 (参考) | $1.75 | $14.00 | $15.75 |
最安のMiniMax M2.5はClaude Opus 4.6の約1/40、最も高いGLM-5でさえ約1/7という水準だ。
春節に登場した中華モデル群が、欧米フロンティアモデルに対して圧倒的な価格優位を持つことは間違いない。
DeepSeek V4:未発表だが、リーク情報は「別格」の性能を示唆
DeepSeek V4は、記事執筆現在(2026年2月19日)、まだ公式発表されていない。
しかし確認済みの事実とリーク情報から、その輪郭はかなり見えてきている。
リーク情報:インターナルベンチが示す「フロンティア超え」の可能性
GitHubにリークしたコード(”MODEL1″と呼ばれるアーキテクチャ)やサードパーティの分析から、V4のスペックが断片的に明らかになっている。
最も注目すべきは、リークされたインターナルベンチマークの結果だ。
| ベンチマーク | DeepSeek V4(リーク) | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| HumanEval | ~90% | ~88% | ~82% |
| SWE-Bench Verified | >80% | 80.9% | 80.0% |
HumanEval(コード生成の正確性を測る標準ベンチマーク)で約90%という数値は、Claude Opus 4.6の約88%、GPT-5.2の約82%をいずれも上回る。SWE-Bench Verifiedでも80%超とされ、Opus 4.6に並ぶ水準だ。
これらのリーク値が事実であれば、コーディング能力で現行の米国フロンティアモデルに並び、分野によっては上回る中国発モデルが誕生することになる。
しかもアクティブパラメータはV3(37B)より少ない32Bで、トークンあたりの実行コストはV3より安くなる見込みだ。
DeepSeekはこれまでOpenAI比20〜50倍安い価格設定を続けてきたため、V4でも同水準の破格料金が予想される。「最高性能かつ最安クラス」という、他社にとって最も厄介なポジションを狙っているわけだ。
上記のベンチマーク数値はリーク情報であり、独立した第三者による検証は行われていない。正式発表時にスコアが異なる可能性がある点に留意してほしい。
アーキテクチャ面では、総パラメータ約1TのMoEで、アクティブパラメータは約32B。Engram、Dynamic Sparse Attention(DSA)、Manifold-Constrained Hyper-Connections(mHC)という3つの新技術を統合し、V3比1.8倍の推論高速化を実現したとされる。
確認済みの事実
1Mトークンのコンテキストウィンドウ: 2月11日、DeepSeekの本番環境でコンテキストウィンドウが従来の128Kから1Mトークンへ拡張されていることが確認された。V4投入に向けた布石と見られている。
Engramメモリ技術: 2026年1月に査読済み論文(arXiv:2601.07372)として公開された新技術。従来のLLMは「知っている知識を思い出す」処理と「考えて推論する」処理を同じ仕組みで行っていたが、Engramはこの2つを分離する。知識の検索にはGPU計算を使わない高速な仕組みを用い、GPUの処理能力を推論に集中させる設計だ。研究段階のEngram-27Bでは知識・推論・コーディングの各ベンチマークで3〜5ポイント向上し、大量のテキストから特定の情報を探し出す精度が84%から97%に跳ね上がった。
Qwen 3.5:1Mコンテキストとネイティブマルチモーダルの万能モデル

Alibabaが旧暦の大晦日(2月16日)に公開したQwen 3.5は、今回の春節モデル群の中で最も「万能型」と呼べるモデルである。
397Bの総パラメータに対し推論時アクティブは17Bと軽量でありながら、1M(100万)トークンという圧倒的なコンテキスト長を誇る。長編小説なら数冊分のテキストを一度に処理できる規模だ。
もう一つの強みは、ネイティブマルチモーダル対応だ。
テキスト・画像・動画を理解でき、1344×1344ピクセルまでの画像や60秒の動画(8 FPS)を扱える。
ライセンスはApache 2.0で、今回紹介する5モデルの中で最も商用利用の自由度が高い。
Qwen 3.5 の料金と試し方
Qwen 3.5を試す方法は大きく3つある。
Web UIで試す場合は、Qwen Appにアクセスすれば、ブラウザ上で直接対話できる。アカウント登録だけで利用開始可能だ。
API経由で利用する場合は、Alibaba Cloud Model Studioにアカウントを作成し、APIキーを取得する。OpenAI互換のAPIフォーマットなので、既存のOpenAI向けコードのBase URLとモデル名を差し替えるだけで動作する。
Base URL: https://dashscope.aliyuncs.com/compatible-mode/v1
モデル名: qwen-plus(Qwen3.5-Plus)
国際版の料金は入力$0.40/1Mトークン、出力$1.20/1Mトークンである。
なお中国版(Alibaba Cloud中国リージョン)では入力0.8元/百万トークン(約$0.11)とさらに安いが、中国本土以外からのアクセスには国際版を利用することになる。
ローカル実行もオープンウェイトなので理論上は可能だ。ただし397Bパラメータのフルモデルを動かすにはハイエンドGPUが複数台必要で、個人環境ではあまり実用的ではない。
GLM-5:Huaweiチップで学習した「知性ランキング1位」モデル

Z.ai(旧Zhipu AI)が2月11日に公開したGLM-5は、744Bパラメータ/40Bアクティブという規模で、Artificial Analysis Intelligence Index v4.0で66モデル中1位のスコア50を獲得した。
これは独立した第三者機関による評価であり、自社ベンチマークとは異なる重みがある。
技術面での最大の特徴は、Huawei Ascendチップのみで学習が完了していることだ。NVIDIAのGPUを一切使わずにフロンティアモデルを訓練したという事実は、米国の対中半導体輸出規制が続く中で大きな意味を持つ。
もう一つの注目点は「ハルシネーション」(事実と異なる情報を生成すること)の少なさだ。ハルシネーション率を測定するAA-Omniscience Indexにおいて業界最低のスコアを記録しており、「知らないことを知らないと答える」能力に優れている。事実に基づいた正確な応答が求められるエンタープライズ用途に適したモデルだ。
SWE-Bench Verifiedでは77.8%で、Gemini 3 Pro(76.2%)を上回りClaude Opus 4.6(80.9%)に迫る。
リリース前に「Pony Alpha」という匿名モデルとしてOpenRouterに投入され、コーディングベンチマークで高評価を獲得した後にGLM-5と正体を明かす、というユニークな登場劇も話題になった。
GLM-5 の料金と試し方
Web UIで試す場合は、Z.aiの公式サイトでアカウントを作成すればブラウザ上で対話できる。
API経由での利用は、api.z.aiがOpenAI互換フォーマットを提供している。入力$1.00/1Mトークン、出力$3.20/1Mトークンで、Claude Opus 4.6と比較して入力は約1/5、出力は約1/8の料金だ。OpenRouterやSiliconFlowなどのサードパーティ経由でも利用できる。
Base URL: https://api.z.ai/v1
モデル名: glm-5
ローカル実行はオープンウェイト(MIT License)で公開されているものの、744Bパラメータという規模のため大規模GPUクラスタが必要だ。vLLMとSGLangに対応している。
なおZ.aiはコーディング特化のサブスクリプションも提供しており、Maxプランは年間$960(初年度)、$672(2年目以降)。Claude Code等のコーディングエージェントツールとの連携にも対応している。
MiniMax M2.5:SWE-Bench 80.2%を「1時間1ドル」で叩き出すコスパ王

MiniMaxが2月12日に公開したM2.5は、「Intelligence too cheap to meter(安すぎて計測不要な知性)」というスローガンを掲げる通り、今回の春節モデル群の中で最もコストパフォーマンスに優れたモデルだ。
230Bパラメータのうちアクティブはわずか10Bで、5モデル中最も軽量。にもかかわらず、SWE-Bench Verifiedで80.2%という驚異的なスコアを記録し、Claude Opus 4.6(80.9%)にわずか0.7ポイント差まで迫った。
Artificial AnalysisのIntelligence Indexでもスコア42で66モデル中5位にランクインしている。
M2.5には、標準版と高速版の2つのバリエーションがある。
- M2.5: 50トークン/秒、入力$0.15/出力$0.60
- M2.5 Lightning: 100トークン/秒、入力$0.30/出力$2.40
高速版のM2.5 Lightningでも「100トークン/秒で1時間連続稼働して$1」というコスト感である。標準版なら「50トークン/秒で1時間$0.30」と、ほぼ無料に等しい。
SWE-Benchのタスク完了時間もClaude Opus 4.6とほぼ同速度(22.8分 vs 22.9分)で、前世代のM2.1比37%高速化を達成した。エージェントタスクの完了に必要なラウンド数もM2.1比約20%少ない。つまり「安いだけでなく、速くて賢い」モデルに仕上がっている。
MiniMaxは香港上場でHK$48億($6.2億)を調達した新興企業で、動画生成AI「Hailuo AI」やキャラクター対話アプリ「Talkie」なども展開している。
MiniMax M2.5 の料金と試し方
Web UIで試す場合は、MiniMax Agentの公式サイトからアクセスできる。
API経由での利用は、platform.minimax.ioでアカウントを作成しAPIキーを取得する。Together AIやSiliconFlowなど9つのAPIプロバイダーでも利用可能で、OpenRouter経由でもアクセスできる。
料金は先述の通り、標準版で入力$0.15/1Mトークン、出力$0.60/1Mトークン。プロンプトキャッシュにも対応している。年間サブスクリプションプランとして、Maxプラン($800/年)とUltraプラン($1,500/年)も用意されている。
ローカル実行はHugging Face上でオープンウェイトが公開されており、vLLMに対応している。Ollama経由でクラウドモデルとして利用する方法も提供されている(この場合ローカルGPUは不要)。
Claude Code等のコーディングエージェントツールとの連携にも対応しており、モデルのAPI料金が運用コストに直結するエージェント用途では最もコスパの高い選択肢となるだろう。
Kimi K2.5:1兆パラメータとAgent Swarmで複雑タスクを制覇

Moonshot AIが1月26日に公開したKimi K2.5は、今回の春節モデル群で唯一の「1兆パラメータ」モデルだ。
1Tの総パラメータから32Bだけをアクティブにするという極端なMoE構成で、巨大なモデルでありながら推論速度を実用的な水準に保っている。
最も際立つ機能は「Agent Swarm」である。
メインエージェントが複雑なタスクを分析し、最大100のサブエージェントを並列で生成・実行できる。各サブエージェントは最大100ステップ、合計で最大1,500のツール呼び出しが可能だ。
BrowseComp(Web検索ベンチマーク)ではAgent Swarm使用時に78.4というスコアを記録し、Claude Opus 4.6(59.2)やGPT-5.2(57.8-65.8)を大幅に上回っている。
数学・推論能力も高く、AIME 2025で96.1(GPT-5.2の100に次ぐ)、GPQA-Diamondで87.6(Claude Opus 4.6の87.0を上回る)を記録した。
ネイティブマルチモーダル対応で、UIデザインや動画ワークフローからのコード生成に特化した「ビジュアルコーディング」能力も備える。
Kimi K2.5 の料金と試し方
Web UIで試す場合は、kimi.comでブラウザ上から直接利用できる。Thinking(推論)モードとInstant(即答)モードの切り替えが可能だ。
API経由での利用は、Moonshot AI公式プラットフォームにアカウントを作成する。OpenAI互換とAnthropic互換の両方のAPIフォーマットに対応している。
モデル名: kimi-k2.5
コンテキスト: 262,144トークン
入力: $0.60/1Mトークン(キャッシュミス)、$0.10/1Mトークン(キャッシュヒット)
出力: $3.00/1Mトークン
キャッシュヒット時の入力料金は$0.10と非常に安く、繰り返し同じシステムプロンプトを使うエージェント用途では実質コストをかなり抑えられる。年間サブスクリプションの最高プランは$1,908/年だ。
コーディングエージェントとして利用する場合、Kimi Code CLIという専用のコマンドラインツールが公式に提供されている。Claude Codeのような使い勝手で、Kimi K2.5をバックエンドにしたコーディングエージェントとして利用可能だ。
ローカル実行はvLLM、SGLang、KTransformersに対応。ネイティブINT4量子化にも対応しているが、1Tパラメータの規模から、フル精度での実行は大規模GPUクラスタが必要だ。
春節モデルラッシュが示す新たな勢力図
1年前のDeepSeekショックが「中国発モデルもフロンティアに立てる」ことを示したとすれば、2026年春節のモデルラッシュが示しているのは「中国発モデルが複数社同時にフロンティアに立ち、しかも桁違いに安い」という新たな現実だ。
そして最大の未確定要素であるDeepSeek V4の正式発表が控えている。
リークされたインターナルベンチの数値が事実に近ければ、コーディング領域で米国フロンティアモデルを初めて凌駕する中国発モデルが誕生することになり、勢力図が一変する可能性がある。
V3譲りの破格料金と合わされば、開発者にとってのインパクトは1年前のDeepSeekショック以上かもしれない。
これまで米国モデルのAPIコストに悩んでいた開発者にとって、選択肢が一気に広がった春節となった。まずは各社のWeb UIで気軽に試してみてほしい。
