Qwen Image Layered の使い方：Photoshop職人不要！？画像をレイヤーに分割するオープンソースAIモデル

2025年12月19日、中国アリババがオープンソースAIモデル「Qwen Image Layered」をリリースした。1枚の画像を与えると、たった1-2分でレイヤーに分解してくれるという一風変わった画像モデルだ。

従来であればPhotoshopなどで複雑な手作業が必要だった編集作業を、AIモデルが瞬時に実行してくれる上に、しかもそれが商用利用も可能な Apache 2.0 ライセンスでオープンソース化されている、という意味で、非常に革新的なプロジェクトだ。

写真やイラストなどを、「Qwen Image Layered」でレイヤー化することで、画像編集の素人であっても、人物と背景を分離して、背景だけを編集する、といったことが可能になる。しかも、隠れていた背景すらもAIが想像して埋めてくれるので、画像に「穴」が空いてしまうこともない。

Nano Banana Pro や Midjourney などの画像生成AIモデルと組み合わせて利用すれば、AIが生成した1枚絵を、Qwen Image Layeredでレイヤー分解することで、バナーやポスターなどのプロユースにも一層活用できるようになりそうだ。

そんな魅力いっぱいの「Qwen Image Layered」だが、現時点ではGPUインスタンスなど一定の専門知識がないと利用するのが難しい。

しかし、デザイナーやイラストレーターなど、クラウドやプログラミングに知識のないクリエイティブ系のユーザーほど、ぜひ試してみてほしいAIモデルだ。

本記事では、専門知識がなくても、Qwen Image Layeredをブラウザ上で使えるように、詳細に手順を解説しているので、ぜひ参考にして欲しい。

Qwen Image Layered の概要

Qwen Image Layered は、アリババが開発する「Qwen 2.5-VL」という画像・テキストに対応した大規模言語モデルを基盤として追加訓練を行い、レイヤー分離を可能にしたモデルだ。

Stable DiffusionやDALL-Eのような、プロンプトから新しい画像を生成する「テキストから画像（text-to-image）」モデルとは異なり、Qwen-Image-Layeredは既存画像の再構成に焦点を当てた「画像から画像（image-to-image）」モデルである。

かいつまんで言えば、Qwen-Image-Layeredは、以下のような仕組みで動作している。

まず、Qwen Image Layeredは、入力された画像を解析し、どんな要素が存在するか（例：前景の人物、テキスト、ロゴ、背景など）を判断する。

そしてそれらを別レイヤーに分離した上で、欠けた画素があれば補完（hallucinate）して穴を埋める。例えば、人物が背景の一部を隠している場合、人物を切り出した「穴」が空くが、背景の続きをAIが生成してくれる。

夢のようなモデルであるが、初回リリースということもあり、現時点での機能はまだまだ完璧ではない。

現時点でもそれなりに便利ではあるものの、以下のような限界があることには注意が必要だ。

解像度の制限：出力解像度は640pxまたは1024pxのみ。
計算負荷の高さ：超高性能なGPUが必要で、NVIDIA A100でも1-2分を要する。
品質のばらつき：同じ画像であっても、毎回結果が若干異なる。2-3回やり直して成功、ということも。
結局は「生成」である：厳密には、画像を切り抜いているのではなく、AIが再構築しているため、”描き直し”による崩れが生じることがある。

広告代理店などでのプロユースには、まだ実戦投入できる段階にはないかもしれない。

しかし、個人開発のサービスのバナー広告を作る際に、Nano Banana Pro で生成したバナーを、レイヤー分解して一部編集する、といったユースケースでは、十分に実用的である。

テキストを含む画像のレイヤー分割テスト

Qwen Image Layered では、テキストを含んだ画像のレイヤー分解も可能である。

例えば、以下のようなアニメや映画のポスター風の画像をレイヤ分割してみる。

プロンプトは入力しなくても処理が可能だが、画像全体を説明しておくとレイヤー分割の精度が上がるかもしれない。

特に、手前のオブジェクトで一部が隠されているテキストや建物などについて説明しておくと、手前のオブジェクトを移動した際の「穴埋め」がうまくいきやすい。

今回は、テキストが存在していることなどを明示するべく、画像全体とタイトルテキストを記述しておいた。

a vibrant anime poster titled "PASTEL GLITCH" features a cheerful girl with rainbow hair and iridescent clothing floating through a luminous, pastel-colored futuristic city.

分割の結果は以下の通りである。画像の細部にぼやっとモヤがかかったような感じはあるが（”描き直し”による弊害）、全体としては綺麗に人物、テキスト、背景が分離されている。

Googleの画像生成AIである Nano Banana Pro は、テキストも正確に描写することができることで注目を集めているが、Qwen Image Layered でテキスト要素とイラスト要素をレイヤー分解できるようになれば、広告バナーなどを非常に容易に作れるようになりそうだ。

画像生成AIと同じく、分割の質はガチャ要素が大きい

Qwen Image Layered は、同じ画像をモデルに与えた場合でも、毎回結果が異なることがある。

例えば、以下のような少女のイラストを、「Qwen Image Layered」に入力し、2〜3回レイヤー分割処理を試してみた。

うまくいったケースでは人物がきれいに切り抜かれ、背景も違和感なく保たれた。人物を移動した後に残る「穴」も自然に補完されていた。

一方で、別の試行では背景と人物がほとんど切り分けられず、元画像とほぼ変わらない単一のレイヤーが生成されるだけ、という失敗も起きた。

このような場合は、何度かレイヤー分割をやり直して当たりを引くしかない。

Midjourney や Nano Banana Pro などの画像生成AIにおいては、同じようなプロンプトを与えても、毎回生成される画像が異なる。

お気に入りの構図が生成されるまで、何度もやり直す、というのは生成AIの世界では割と常識のテクニックだ。

Qwen Image Layered も、根底はそれらの生成AIと同じで、現時点では、動作の不安定さ、いわゆるガチャ要素がまだ残っているということだ。

Qwen Image Layered を実際に使う2つの方法（無料＆有料だが格安）

Qwen Image Layered はオープンソースであるため、様々な手段で利用できる。

たとえば、超高性能な GPU を搭載した PC を所有しているなら、モデルをローカルにダウンロードしてきて動かすことも可能だ。

ただし Qwen Image Layered は計算負荷とVRAMの必要量が高く、実用的な速度で回すには NVIDIA A100 などの100万円超のデータセンター級 GPU が前提になる。

そのため、現実的な利用法としては、クラウド上の GPU を借りて使うことになる。

無料で試したい場合、Hugging Face 上に用意されたデモを使うのが最も手っ取り早い。ただし、利用制限が厳しいため、すぐに月9ドルの課金が必要になってしまう。

複数の画像をまとめてレイヤー分解したい場合には、時間単位で GPU をレンタルできる有料のサービスを使うのが現実的だ。

代表例として、格安で個人間でGPUを借りられる vast.ai がある。1 時間あたり100円程度といった非常に安価な料金で、超高性能の GPU を借りられるので、使い方を知っておいて損はないはずだ。

以下では、Hugging Face に用意されたデモと、 vast.ai のクラウド GPU インスタンスを使い、Qwen Image Layered を実際に動かす手順をそれぞれ詳細に解説していく。

Hugging Face の公式デモを使う（無料だがリミット1回）

Qwen のGithubレポジトリでも公式に案内されている無料デモは、Hugging Face 上で動作している。

Hugging Face には「ZeroGPU」という、無料で GPU を利用できる仕組みがあり、Qwen の公式デモもこれを使って動かせる。

Hugging FaceのZeroGPUは、NVIDIA H200 GPUを複数のユーザーで動的に共有するシステムで、Hugging Faceのアカウントを作れば、毎日おおよそ2-3分間の無料利用が可能とされている。

Qwen Image Layered は、1枚の画像をレイヤー分割するのにおおむね2〜3分程度かかる。そのため、Hugging Face の ZeroGPU を無料枠で使う場合、1日に処理できるのは基本的に1枚が限度となる。

使い方は簡単で、Hugging Faceのアカウントを開設して、こちらの公式デモを開いたら、レイヤー分解したい画像をアップロードし、「Decompose!」ボタンをクリックするだけでよい。

すぐに処理が始まり、分割された画像ファイル一式と、それらをまとめた .zip ファイル、さらに .pptx（PowerPoint）ファイルをダウンロードできるようになる。

1枚以上の画像を処理しようとすると、有料のProアカウントへのアップグレードを促されてしまう。

仮にProアカウントを作ったとしても、ZeroGPUの利用制限はおよそ30分／日に増えるだけなので、画像10枚くらいを処理したら上限に到達してしまう。

したがって、2枚以上の画像を処理したい場合におすすめの方法は、vast.ai を使ってクラウド GPU インスタンス上で動かす手段である。

GPUインスタンスを借りて Qwen Image Layered をブラウザ上で動かす

以下では、Qwen-Image-Layered を vast.ai のGPUインスタンスで実行し、Web UIを通じて利用するための手順をまとめる。

プログラミングの知識がない人や、GPUインスタンスを借りたことが一度もない初心者であっても、以下の手順を忠実に真似していけば利用できるはずである。

すべての作業がWebブラウザ上で完結するので、安心して欲しい。

格安でGPUをレンタルできる「vast.ai」の基本

vast.ai とは、個人間で GPU の貸し借りが行えるマーケットプレイス型のサービスである。GPU インスタンスを検索すると、1時間あたりの料金が表示され、比較的安価に高性能 GPU を利用できる。

まずは、vast.ai のアカウントを作成する。こちらのトップページからアクセスして、「Get Started」ボタンからアカウントを作る。

以下は vast.ai 上で利用可能な GPU を検索した画面の例である。画面の見方を簡潔に整理しておく。

GPU ごとに「1時間あたりの利用料金」が表示されているが、最終的な支払い額は GPU のレンタル料だけで決まるわけではない。一般に、合計金額は以下の要素の組み合わせで決まる。

GPU（計算リソース）のレンタル料金
ストレージ容量（ディスク）の利用料金
アップロード／ダウンロードなど通信（転送）の料金

以下の例なら、1時間あたりわずか「11円の時間料金＋1TBあたり1円以下の通信料金」で、RTX3070を搭載した100GBのクラウドコンピューターを使えることになる。

また、GPU インスタンスごとにネット回線の速度なども表示される。

Qwen Image Layered は、モデルサイズが 50GB 以上になるため、vast.ai でインスタンスを選ぶ際は、ネット回線ができるだけ高速で、かつ上り・下りの転送料金が安いものを優先するのがコツである。

Qwen Image Layered を動かすための起動テンプレとサーバーの選び方

アカウントが準備できたら、実際にモデルを動かすためのサーバーを借りる。

vast.ai では、クラウドインスタンスを借りる際に、あらかじめインスタンス側にインストールしておくべきソフトウェア群をまとめた「テンプレート」が用意されている。

テンプレートの中から Qwen Image Layered に適したものを選び、ディスク容量などの設定を行えば、短時間で GPU インスタンスを立ち上げられる。

vast.ai にログインし、左側メニューから「Templates」画面へ移動する。
「PyTorch (Vast)」というテンプレートを選択する（再生ボタンを押す）。

インスタンスの選択画面（コンソール）に移動したら、画面左のテンプレートの「Container Size」の容量を100GB程度に引き上げる。

インスタンスのフィルタリング：画面左側のバーでインスタンスの検索条件を変更できる。CPU RAMが64GB以上、Per GPU RAMが50GB以上あるインスタンスに絞る。

システムメモリが十分になければ、途中でクラッシュしてしまい動かないので、RAMが64GB以上のインスタンスを選択する必要があるのだ。

また、 Qwen Image Layered は、VRAMの消費が非常に激しいので、NVIDIA A100 や RTX A6000 など、VRAMが単体で40GB以上はあるようなインスタンスを使用する必要がある。そのため、「Per GPU RAM」を50GB以上にフィルタしている。

フィルタをかけた後は、検索条件を満たすインスタンスのみが右側に表示されるので、料金を見て「RENT」ボタンを押してインスタンスを起動する。

今回の例では、NVIDIA A100 を、1時間あたり約1ドル（＝150円）でレンタルすることができた。

慣れてきたら30分ほどで画像10〜15枚を処理することができそうなので、1画像あたり10円強でレイヤー分割ができるイメージだ。

サーバー上での環境構築からWeb UIの実行

左側メニューの「Instances」をクリックすると、現在起動中のインスタンスの一覧が表示される。

先ほど選択したインスタンスが起動（「Running」）状態になったら、「Open」ボタンが押せるようになるので、「Open」をクリックする。

すると、ブラウザで新しいタブが開き、Vast.aiのランチャーが表示されるはずだ。ここで、「Jupyter Terminal」をクリックする。

これで、レンタル中のインスタンスの中にアクセスして、Qwen Image Layeredのインストール作業などを進めることができる。

ちなみに、Openボタンを押した際に、上記のようなVast.aiのランチャーではなく、以下のようなJupyterの画面に遷移したときは、左上の「File」メニューから「Terminal」を開くと、同じ結果になる。

ターミナルで Qwen Image Layered をインストール

ターミナルでは、テキストでコマンドを打ち込むことで、必要なアプリのインストールなどを行うことができる。

慣れない画面で戸惑うかもしれないが、以下のコマンドをコピペしてターミナルに貼り付けていくだけで、Qwen Image Layered インストールが完了するので安心して欲しい。

まず、プログラムの本体をダウンロードすべく、以下のコマンドをコピペする。すると直ちにダウンロードが始まり、完了するとまた次のコマンドを受け付けてくれる状態になる。

git clone https://github.com/QwenLM/Qwen-Image-Layered.git
cd Qwen-Image-Layered

次に、動作に必要な関連ライブラリをインストールするコマンドをコピペする。

# 依存関係のインストール
pip install git+https://github.com/huggingface/diffusers
pip install transformers>=4.51.3
pip install python-pptx accelerate gradio

Qwen Image Layered の Web UI (Gradio) の起動

最後に、Qwen Image Layered のインターフェースを立ち上げる。

このステップが最も時間を要する。50GB以上のファイルのダウンロードが行われるので、インスタンスの回線スピードが早ければ早いほどよい。

手順としては、これまで同様、Terminalに以下のコマンドをコピペするだけだ。

# Gradioの共有リンクを有効にして起動
export GRADIO_SHARE=True
python src/app.py

コマンドを実行してしばらく待つと、Terminalに以下のような表示が出るはずである：

Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://xxxxxxxxxxxx.gradio.live  <-- ここ！

この https://.......gradio.live というリンクをクリックする。

これで、vast.ai上のGPUを使って動作している Qwen-Image-Layered のWeb UIが、あなたのブラウザで開く。無事開けていれば、以下のようなインターフェースが表示されているはずだ。

WebUI で画像のレイヤ分割を実行する

画像をアップロードして、「Decompose!」ボタンをクリックするだけで処理が開始される。

右側のパネルで「Layers」の数を変更すれば、デフォルトの4レイヤーだけでなく、様々な数のレイヤーへの分割を指示することができる。

「Decompose!」ボタンをクリックした後、問題なく動作していれば、Jupyterのターミナル側を確認すると 48/50 [03:40<00:09, 4.60s/it] などと、「Number of inference steps」の何個目まで完了したかの進捗が表示されているはずだ。

無事に100%完了すると、指定したレイヤー数に分割された画像ファイルをダウンロードすることができる。

また、「Export as PPTX」ボタンをクリックすると、レイヤーが元の順番で重なった状態で、パワポの1枚のスライドとして表示させることができる。

使い終わったら必ずインスタンスを終了しておく

vast.ai は時間課金なので、当然ながら付けっぱなしにしていると料金がかかり続けてしまう。

使い終わったら、「Instances」画面に戻って、起動中のインスタンスのゴミ箱アイコン「Destroy your instance」をクリックして、すべてを削除しておこう。

毎回、上で解説した起動処理をやり直す必要はあるが、慣れればコマンドをコピペで貼り付けていくだけなので、料金を節約する方が大事だ。