ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。
3日目となる本日、OpenAIは、テキストからリアルな動画を生成できる動画生成モデル「Sora」を正式リリースした。
これにより、早速本日から、ChatGPT PlusおよびProユーザーは、最大1080p/20秒の短編動画を、簡単なテキスト指示から生成できるようになる。
テキスト生成のChatGPT、静止画生成のDALL-E 3を中心に進化を続けてきたOpenAIが、ついに「動画」領域へと本格参入した。
この記事では、OpenAIのライブ配信で紹介されたSoraについて、現在明らかになっている情報を整理するとともに、実際にSoraを使う方法を紹介する。
なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。
バージョンアップした「Sora Turbo」の概要
Soraは、今年初頭に公開されていた非公開のプレビュー版から大幅に進化し、新バージョン「Sora Turbo」となり、処理速度が向上しているという。
ユーザー自身がテキストプロンプトから動画生成するだけでなく、画像や動画を組み合わせてリミックスするツールなども提供される。
基本的な機能は以下のような構成となっている。
Soraの基本的な操作フロー
Soraは、ChatGPTからテキストで呼び出すDALL-E 3と異なり、独自のインターフェースが用意されている。画像生成AIのMidjourneyのWebインターフェースのようなイメージに非常に近いものだ。
まずSoraにアクセスすると、Explore(エクスプロア) と呼ばれる、コミュニティによる生成動画のフィードが存在する。
ここで、他の人の手法やプロンプトを閲覧することで、インスピレーションを得ることができる。
画像生成AIのMidjourneyにも似たような機能があり、他の人のプロンプトから学ぶことができる。
また、Library(ライブラリ) では、ユーザーが生成した動画を管理する画面だ。生成した動画をグリッド/リスト表示できたり、フォルダ管理、ブックマーク、お気に入り機能などの基本的な管理ツールが揃っている。
動画生成を行う中核の機能は、 Composer(コンポーザー) と呼ばれるチャットボックスのようなエディタにある。
テキストをもとに動画生成を行うことができ、アスペクト比指定(横長、正方形、縦長)、解像度選択(480p~1080p)、長さの変更(5~20秒) 、生成するバリエーション数の設定などができる。
また、お気に入りのデザインスタイルなどをまとめておいて、「プリセット」として動画スタイルを指定できる(例:ストップモーション風など)機能もあるという。
ライブ配信の中では、「Wooly mammoths walking through a desert landscape, wide shot」(毛で覆われたマンモスが砂漠を歩くワイドショット)の動画を生成する例が示された。
また、動画を生成した後も、微調整が可能になっている。ライブ配信中では、主に以下の機能のデモが行われた。
- Remix(リミックス):既存動画にテキストで修正指示し、新たなバリエーションを生成。
- ReCut(リカット):既存動画を再編集し、特定部分をトリミング後、新たなシーンを生成。
- Loop(ループ):好きなシーンをシームレスにループ再生する動画を生成。
- Blend(ブレンド):2つの異なる動画を融合し、新しいシーンを生成。
Soraで複数のシーンを自然に描ける「Storyboard」機能がすごい
白鳥が立っているシーンから、白鳥が水に顔を沈めて魚を撮るシーンに移り変わる、というような、複数のアクションを時系列で指定して動画を生成できる機能が Storyboard(ストーリーボード) だ。
単にプロンプト文を入れて結果を待つだけでなく、人間が動画の構成を指定して、より複雑でストーリー性のある動画を生成できる。
Storyboardのインターフェース上では、生成したいシーンを「カード」形式で並べ、それを動画のタイムラインに配置することで、ストーリーの構成を作ることができる。
しかも、画像のアップロードも可能なので、手持ちの画像をSoraに与え、それを自分の好きな構成の動画として展開させることができる。
ライブ配信中では、灯台の写真をアップロードする例が示された。
すごいのは、アップロードされた写真をSoraが読み取って、勝手に第2カードのストーリーを考案してくれている点だ。もちろん、人間が第2カードの内容を編集して、好きな動かし方を指示することもできる。
Soraの利用料金まとめ
日本時間12月10日の当日中から、日本をはじめ各国で利用することが可能になった(EU圏は規制のため除外されている)。
Soraは、ChatGPTの有料サブスクプランの一環として、追加料金なしで提供される。ChatGPTのサブスクリプションに含まれている画像生成のDALL-E 3のような位置付けと言える。
月額20ドルのChatGPT Plusアカウントでは、月に50回まで480pビデオの生成が可能である。
月額200ドルのChatGPT Proアカウントでは、500回の”fast generations”が利用可能で、また”slower generation mode”では無制限での動画生成が可能である。
また、ライブ配信中では、高解像度にすると生成可能数は減る、とも言及されており、動画の生成の速度や解像度によって、クレジット消化の程度が変わるものと思われる。
Soraを利用する方法
ChatGTPと同じOpenAIアカウントを使って、https://sora.com/にアクセスし、ログインすることによってSoraを利用することが可能になる。
初めてOpenAIアカウントを使ってログインすることで、Soraのアカウントが作成できるという。
ただし、発表直後から、アクセスが殺到して、現在はSoraのアカウント作成が制限されており、ログインしても以下のようなメッセージが表示される。