2025年1月20日、中国のAI企業DeepSeekが、OpenAIのo1モデルと同等の性能を持つとされる推論モデル「DeepSeek-R1」を発表し、国内外問わず話題沸騰となっている。
R1は、完全にオープンソース化され、MITライセンスの下で公開されている。
MITライセンスのメリットを簡潔に言えば、「ほぼ制約なく自由に使える」ことだ。ダウンロードして自分のPC上で使用することはもちろん、商用利用も可能、改変も可能、再配布も可能となっている。
とはいえ、せっかくダウンロードできても、「DeepSeek R1」は671Bパラメータもの超巨大モデルで、容量も650GBを超え、到底個人のPCで動かすことは不可能だ。
実は、R1本体と同時に、個人PCでも動作しうる軽量版として、6つの小型 “distilled models” がリリースされている。
本記事では、これらの6つの小型軽量版のDeepSeek R1について、MacやWindowsを用いて、実際に自分のローカル環境上で動かす方法を紹介する。
実際に、「DeepSeek-R1-Distill-Llama-8B」を筆者のMac Book Airで動かしてみたところ、普通に使えるスピードで動作したので、夢が広がる。
DeepSeek R1の「Distilled Models」とは何か
LLMディスティレーションは、大規模な言語モデル(教師モデル)の知識を、より小規模なモデル(生徒モデル)に転移する技術である。
一般的には、教師モデルが特定のタスクに対する出力を生成し、生徒モデルが教師モデルの出力を模倣するよう学習する、というステップを踏む。
モデルのサイズを大幅に縮小し軽量化しながらも、できるだけ教師モデルの性能に近いパフォーマンスの実現を目指して行われる。
DeepSeek R1のテクニカルペーパーの中では、R1を教師モデルとして作られた「Distilled Models」6つが紹介されている。
それぞれ、MetaのLlama、アリババのQwenなど、他社の小型モデルを、R1を用いてトレーニングしたものだ。
R1の派生モデル | 元となったモデル | サイズ(ollama配布版) |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 1.1GB |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 4.7GB |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 4.9GB |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 9GB |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 20GB |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 43GB |
650GBを超える巨大モデルのR1本体と比べると、かなり容量が小さく抑えられていることがわかる。
パラメーター数が小さくなればなるほど、容量だけでなく、推論のスピードも高速化するため、一般的なPCやスマホでも動かせる可能性がある。
例えば、筆者が実験したところ、Llamaの8BモデルはM3チップのMac Book Airでも普通に動作したし、Llamaの3Bモデルに至ってはiPhoneでも動作した。
小型軽量でもGPT-4oを超えるR1の超絶性能
DeepSeek R1のテクニカルペーパーの中で、Distilled Modelsのベンチマークテストの結果も示されている。
R1のいずれのdistilledモデルも、とんでもなくパフォーマンスが高く、6つのモデルの重要性には、甲乙つけ難いところだ。
しかし、筆者が注目したのは、DeepSeekのLlamaベースの8Bモデルが、昨年5月にリリースされた当時のGPT-4oよりも、優れたスコアを叩き出している点だ。
というのも、8Bパラメーターのモデルは、一般的なラップトップPCであっても、実用的なスピードで動かせるほど小型軽量であるからだ。
実際、筆者はLlama 3 8BモデルをMac Book Airで使ったことがあり、完全ローカル・オフラインでも、特にストレスなく使用することができた。
タスクによってはGPT-4oと同等のパフォーマンスのモデルが、自分のPC上でサクサク動いてしまう、というのは衝撃的だ。
数学オリンピック予選(AIME 2024)や、プログラミングコンテストサイトCodeForcesのレーティングで、DeepSeek-R1-Distill-Llama-8B
がGPT-4o-0513
を大きく上回っており、特に数学やコード生成の性能が目覚ましい。
もちろん、これらはタスク特化のトレーニングをしたからこそであって、一般的なテキストの生成時の文章力など、総合力では圧倒的にGPT-4oが強いのは当然だ。
用途としては、企業などが、自社特有のタスクについて、これらの蒸留モデルをファインチューニングし、ローカル環境で無料で無限に利用できる、といったことが考えられる。コーディングなどの用途では、十分に可能性を感じさせてくれる結果だ。
ローカル環境でDeepSeek R1を動かす方法完全ガイド
本記事では、筆者が所有しているMac Book Air(M3チップ、16GBメモリ)でも実用的なスピードで動作するモデルとして、「DeepSeek-R1-Distill-Llama-8B」を試した。
DeepSeek R1の6つのDistilledモデルのどれを選んだとしても、以下と同じステップを踏むことで、非常に簡単に、自分のPC上で動かすことができるので、ぜひ試してみてほしい。
モデルを簡単に入手できる「Ollama」のインストール
「Ollama」は、非常に簡単なコマンドを打ち込むだけで、ローカルPC上に主要なオープンソースモデルをダウンロードし、ターミナル上でチャットを開始できるツールだ。
DeepSeek R1の全モデルも、早速Ollamaからダウンロード可能になっているので、Ollamaを導入することで誰でも簡単にDeepSeekをローカル環境で利用できる。
まずは、Ollamaの公式サイトにアクセスして、アプリをダウンロードしてくる。Mac, Windows, Linuxに対応しているので、どのOSでも問題ない。
Ollamaをダウンロードしてきて起動すると、以下のようなセットアップ画面になるので、「Next」ボタンを押していってインストールを進める。
途中、コマンドラインツールをインストールするよう求められ、管理者権限でのパスワード入力などが必要になる。
これだけで、Macならターミナル、Windowsならパワーシェルなどにおいて、Ollamaのコマンドが利用可能になる。
OllamaでDeepSeek R1モデルをダウンロード
Ollamaの公式サイトで、DeepSeek R1モデルの情報を掲載したページから、自分がダウンロードしたいモデルの名称を把握する。
8Bモデルをダウンロードしたいので、プルダウンメニューで「8b」を選択すると、右側にターミナルで実行すべきコマンドが表示される。
8Bモデルの場合は、ollama run deepseek-r1:8b
と打ち込むだけで良い。
(ollama run
コマンドは、指定したモデルを実行するコマンドだが、ダウンロードが未完了であれば、自動でダウンロードした上で実行してくれる。)
ターミナルに打ち込むと、自動でダウンロードが始まった。
DeepSeek-R1-Distill-Llama-8B
モデルのサイズは4.9GBと、比較的小型なので、ダウンロードにかかる時間も短い。
ターミナル上でのDeepSeek R1とのチャット
モデルのダウンロードが完了すると、そのままターミナル上でDeepSeek-R1-Distill-Llama-8B
とのチャットを開始できる。
「Send a message」と表示されている箇所に質問や指示を打ち込む。
なお、バックスラッシュとクエスチョンマーク(/?
)を打ち込むと、Ollamaのヘルプが呼び出せる。/bye
コマンドを打ち込めばチャットが終了し、通常のターミナルに戻る。
DeepSeek-R1-Distill-Llama-8B
の元となっているLlama 3.1 8Bは、日本語性能がイマイチだったが、DeepSeek R1によるディスティレーションを経てもあまりそこは変わっていない。
100以下の素数を聞いてみるとサクサク回答してくれるが、日本語には若干違和感がある。
色々試してみたが、やはり流石に8Bモデルでは、GPT-4oなどには勝てない印象だ。
DeepSeekのテクニカルペーパーに示された各種ベンチマークでは、8Bモデルでさえ、GPT-4oやClaude 3.5 Sonnetと同等のスコアを記録していたが、それは一部のベンチマークの話で、総合力では流石にGPT-4oなどのフロンティアモデルが勝る。
例えば、8Bモデルに空を飛ぶペンギンのイラストをSVG形式で描いてもらってみると、DeepSeek R1やOpenAIのo1, GPT-4oで過去に試したときと比べると、はるかにクオリティの低い謎の図形になってしまった。
流石に8Bクラスの軽量モデルは、性能に限りはある。
しかし、筆者のMac Book Air(M3チップ、16GBメモリ)であっても、非常に高速にテキストが生成されていき、特定の用途によっては十分役立つはずだ。
それほど高スペックでもないコンシューマーラップトップで、実用的な速度で動かすことができるというのは衝撃的だ。
ローカルモデルであれば、個人情報や機密情報の漏洩を心配する必要もないため、これまでLLMを適用できなかった機微なデータなども、いくらでもDeepSeekに読み込ませることができる。
70Bモデルなど上位の中型モデルを動かすには、相当な高スペックPCが必要となるが、例えば企業が、自社の業務プロセスにDeepSeek 70Bモデルをファインチューンしたモデルを組み込むなどすれば、得られるリターンも大きいため、ローカル環境のGPUリソースへの投資も正当化できるかもしれない。
コンシューマーPCのスペックがさらに向上していけば、誰もが自分のPCのローカル環境にGPT-4oクラスのAIを所有することができる時代は、すぐそこまで迫っていると感じる。