AIじゃないよ

DeepSeek R1をMac Book Airで動かしてみた:R1の6つの「蒸留」モデルの使い方

当サイトはアフィリエイト広告を一部掲載しています。

2025年1月20日、中国のAI企業DeepSeekが、OpenAIのo1モデルと同等の性能を持つとされる推論モデル「DeepSeek-R1」を発表し、国内外問わず話題沸騰となっている。

R1は、完全にオープンソース化され、MITライセンスの下で公開されている。

MITライセンスのメリットを簡潔に言えば、「ほぼ制約なく自由に使える」ことだ。ダウンロードして自分のPC上で使用することはもちろん、商用利用も可能、改変も可能、再配布も可能となっている。

とはいえ、せっかくダウンロードできても、「DeepSeek R1」は671Bパラメータもの超巨大モデルで、容量も650GBを超え、到底個人のPCで動かすことは不可能だ。

実は、R1本体と同時に、個人PCでも動作しうる軽量版として、6つの小型 “distilled models” がリリースされている。

本記事では、これらの6つの小型軽量版のDeepSeek R1について、MacやWindowsを用いて、実際に自分のローカル環境上で動かす方法を紹介する。

実際に、「DeepSeek-R1-Distill-Llama-8B」を筆者のMac Book Airで動かしてみたところ、普通に使えるスピードで動作したので、夢が広がる。



DeepSeek R1の「Distilled Models」とは何か

LLMディスティレーションは、大規模な言語モデル(教師モデル)の知識を、より小規模なモデル(生徒モデル)に転移する技術である。

一般的には、教師モデルが特定のタスクに対する出力を生成し、生徒モデルが教師モデルの出力を模倣するよう学習する、というステップを踏む。

モデルのサイズを大幅に縮小し軽量化しながらも、できるだけ教師モデルの性能に近いパフォーマンスの実現を目指して行われる。

DeepSeek R1のテクニカルペーパーの中では、R1を教師モデルとして作られた「Distilled Models」6つが紹介されている。

それぞれ、MetaのLlama、アリババのQwenなど、他社の小型モデルを、R1を用いてトレーニングしたものだ。

R1の派生モデル元となったモデルサイズ(ollama配布版)
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B1.1GB
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B4.7GB
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B4.9GB
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B9GB
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B20GB
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct43GB

650GBを超える巨大モデルのR1本体と比べると、かなり容量が小さく抑えられていることがわかる。

パラメーター数が小さくなればなるほど、容量だけでなく、推論のスピードも高速化するため、一般的なPCやスマホでも動かせる可能性がある。

例えば、筆者が実験したところ、Llamaの8BモデルはM3チップのMac Book Airでも普通に動作したし、Llamaの3Bモデルに至ってはiPhoneでも動作した

小型軽量でもGPT-4oを超えるR1の超絶性能

DeepSeek R1のテクニカルペーパーの中で、Distilled Modelsのベンチマークテストの結果も示されている。

R1のいずれのdistilledモデルも、とんでもなくパフォーマンスが高く、6つのモデルの重要性には、甲乙つけ難いところだ。

しかし、筆者が注目したのは、DeepSeekのLlamaベースの8Bモデルが、昨年5月にリリースされた当時のGPT-4oよりも、優れたスコアを叩き出している点だ。

DeepSeek R1 テクニカルペーパーより引用

というのも、8Bパラメーターのモデルは、一般的なラップトップPCであっても、実用的なスピードで動かせるほど小型軽量であるからだ。

実際、筆者はLlama 3 8BモデルをMac Book Airで使ったことがあり、完全ローカル・オフラインでも、特にストレスなく使用することができた。

タスクによってはGPT-4oと同等のパフォーマンスのモデルが、自分のPC上でサクサク動いてしまう、というのは衝撃的だ。

数学オリンピック予選(AIME 2024)や、プログラミングコンテストサイトCodeForcesのレーティングで、DeepSeek-R1-Distill-Llama-8BGPT-4o-0513を大きく上回っており、特に数学やコード生成の性能が目覚ましい。

もちろん、これらはタスク特化のトレーニングをしたからこそであって、一般的なテキストの生成時の文章力など、総合力では圧倒的にGPT-4oが強いのは当然だ。

用途としては、企業などが、自社特有のタスクについて、これらの蒸留モデルをファインチューニングし、ローカル環境で無料で無限に利用できる、といったことが考えられる。コーディングなどの用途では、十分に可能性を感じさせてくれる結果だ。

ローカル環境でDeepSeek R1を動かす方法完全ガイド

本記事では、筆者が所有しているMac Book Air(M3チップ、16GBメモリ)でも実用的なスピードで動作するモデルとして、「DeepSeek-R1-Distill-Llama-8B」を試した。

DeepSeek R1の6つのDistilledモデルのどれを選んだとしても、以下と同じステップを踏むことで、非常に簡単に、自分のPC上で動かすことができるので、ぜひ試してみてほしい。

モデルを簡単に入手できる「Ollama」のインストール

「Ollama」は、非常に簡単なコマンドを打ち込むだけで、ローカルPC上に主要なオープンソースモデルをダウンロードし、ターミナル上でチャットを開始できるツールだ。

DeepSeek R1の全モデルも、早速Ollamaからダウンロード可能になっているので、Ollamaを導入することで誰でも簡単にDeepSeekをローカル環境で利用できる。

まずは、Ollamaの公式サイトにアクセスして、アプリをダウンロードしてくる。Mac, Windows, Linuxに対応しているので、どのOSでも問題ない。

Ollamaをダウンロードしてきて起動すると、以下のようなセットアップ画面になるので、「Next」ボタンを押していってインストールを進める。

途中、コマンドラインツールをインストールするよう求められ、管理者権限でのパスワード入力などが必要になる。

これだけで、Macならターミナル、Windowsならパワーシェルなどにおいて、Ollamaのコマンドが利用可能になる。

OllamaでDeepSeek R1モデルをダウンロード

Ollamaの公式サイトで、DeepSeek R1モデルの情報を掲載したページから、自分がダウンロードしたいモデルの名称を把握する。

8Bモデルをダウンロードしたいので、プルダウンメニューで「8b」を選択すると、右側にターミナルで実行すべきコマンドが表示される。

8Bモデルの場合は、ollama run deepseek-r1:8bと打ち込むだけで良い。

ollama run コマンドは、指定したモデルを実行するコマンドだが、ダウンロードが未完了であれば、自動でダウンロードした上で実行してくれる。)

ターミナルに打ち込むと、自動でダウンロードが始まった。

DeepSeek-R1-Distill-Llama-8Bモデルのサイズは4.9GBと、比較的小型なので、ダウンロードにかかる時間も短い。

ターミナル上でのDeepSeek R1とのチャット

モデルのダウンロードが完了すると、そのままターミナル上でDeepSeek-R1-Distill-Llama-8Bとのチャットを開始できる。

「Send a message」と表示されている箇所に質問や指示を打ち込む。

なお、バックスラッシュとクエスチョンマーク(/?)を打ち込むと、Ollamaのヘルプが呼び出せる。/byeコマンドを打ち込めばチャットが終了し、通常のターミナルに戻る。

DeepSeek-R1-Distill-Llama-8Bの元となっているLlama 3.1 8Bは、日本語性能がイマイチだったが、DeepSeek R1によるディスティレーションを経てもあまりそこは変わっていない。

100以下の素数を聞いてみるとサクサク回答してくれるが、日本語には若干違和感がある。

色々試してみたが、やはり流石に8Bモデルでは、GPT-4oなどには勝てない印象だ。

DeepSeekのテクニカルペーパーに示された各種ベンチマークでは、8Bモデルでさえ、GPT-4oやClaude 3.5 Sonnetと同等のスコアを記録していたが、それは一部のベンチマークの話で、総合力では流石にGPT-4oなどのフロンティアモデルが勝る。

例えば、8Bモデルに空を飛ぶペンギンのイラストをSVG形式で描いてもらってみると、DeepSeek R1やOpenAIのo1, GPT-4oで過去に試したときと比べると、はるかにクオリティの低い謎の図形になってしまった。

プロンプト「a penguin flying through the sky」で8Bモデルが描写

流石に8Bクラスの軽量モデルは、性能に限りはある。

しかし、筆者のMac Book Air(M3チップ、16GBメモリ)であっても、非常に高速にテキストが生成されていき、特定の用途によっては十分役立つはずだ。

それほど高スペックでもないコンシューマーラップトップで、実用的な速度で動かすことができるというのは衝撃的だ。

ローカルモデルであれば、個人情報や機密情報の漏洩を心配する必要もないため、これまでLLMを適用できなかった機微なデータなども、いくらでもDeepSeekに読み込ませることができる。

70Bモデルなど上位の中型モデルを動かすには、相当な高スペックPCが必要となるが、例えば企業が、自社の業務プロセスにDeepSeek 70Bモデルをファインチューンしたモデルを組み込むなどすれば、得られるリターンも大きいため、ローカル環境のGPUリソースへの投資も正当化できるかもしれない。

コンシューマーPCのスペックがさらに向上していけば、誰もが自分のPCのローカル環境にGPT-4oクラスのAIを所有することができる時代は、すぐそこまで迫っていると感じる。



Make a comment

*
*
* (公開されません)