【12 Days of OpenAI 全解説】Day3：遂に一般公開された動画生成AI「Sora」全機能まとめ

ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。

3日目となる本日、OpenAIは、テキストからリアルな動画を生成できる動画生成モデル「Sora」を正式リリースした。

これにより、早速本日から、ChatGPT PlusおよびProユーザーは、最大1080p／20秒の短編動画を、簡単なテキスト指示から生成できるようになる。

テキスト生成のChatGPT、静止画生成のDALL-E 3を中心に進化を続けてきたOpenAIが、ついに「動画」領域へと本格参入した。

この記事では、OpenAIのライブ配信で紹介されたSoraについて、現在明らかになっている情報を整理するとともに、実際にSoraを使う方法を紹介する。

なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。

バージョンアップした「Sora Turbo」の概要

Soraは、今年初頭に公開されていた非公開のプレビュー版から大幅に進化し、新バージョン「Sora Turbo」となり、処理速度が向上しているという。

ユーザー自身がテキストプロンプトから動画生成するだけでなく、画像や動画を組み合わせてリミックスするツールなども提供される。

基本的な機能は以下のような構成となっている。

Soraは、ChatGPTからテキストで呼び出すDALL-E 3と異なり、独自のインターフェースが用意されている。画像生成AIのMidjourneyのWebインターフェースのようなイメージに非常に近いものだ。

まずSoraにアクセスすると、Explore（エクスプロア） と呼ばれる、コミュニティによる生成動画のフィードが存在する。

ここで、他の人の手法やプロンプトを閲覧することで、インスピレーションを得ることができる。

画像生成AIのMidjourneyにも似たような機能があり、他の人のプロンプトから学ぶことができる。

また、Library（ライブラリ） では、ユーザーが生成した動画を管理する画面だ。生成した動画をグリッド/リスト表示できたり、フォルダ管理、ブックマーク、お気に入り機能などの基本的な管理ツールが揃っている。

動画生成を行う中核の機能は、 Composer（コンポーザー） と呼ばれるチャットボックスのようなエディタにある。

テキストをもとに動画生成を行うことができ、アスペクト比指定（横長、正方形、縦長）、解像度選択（480p～1080p）、長さの変更（5～20秒）、生成するバリエーション数の設定などができる。

また、お気に入りのデザインスタイルなどをまとめておいて、「プリセット」として動画スタイルを指定できる（例：ストップモーション風など）機能もあるという。

ライブ配信の中では、「Wooly mammoths walking through a desert landscape, wide shot」（毛で覆われたマンモスが砂漠を歩くワイドショット）の動画を生成する例が示された。

また、動画を生成した後も、微調整が可能になっている。ライブ配信中では、主に以下の機能のデモが行われた。

白鳥が立っているシーンから、白鳥が水に顔を沈めて魚を撮るシーンに移り変わる、というような、複数のアクションを時系列で指定して動画を生成できる機能が Storyboard（ストーリーボード） だ。

単にプロンプト文を入れて結果を待つだけでなく、人間が動画の構成を指定して、より複雑でストーリー性のある動画を生成できる。

Storyboardのインターフェース上では、生成したいシーンを「カード」形式で並べ、それを動画のタイムラインに配置することで、ストーリーの構成を作ることができる。

しかも、画像のアップロードも可能なので、手持ちの画像をSoraに与え、それを自分の好きな構成の動画として展開させることができる。

ライブ配信中では、灯台の写真をアップロードする例が示された。

すごいのは、アップロードされた写真をSoraが読み取って、勝手に第2カードのストーリーを考案してくれている点だ。もちろん、人間が第2カードの内容を編集して、好きな動かし方を指示することもできる。

日本時間12月10日の当日中から、日本をはじめ各国で利用することが可能になった（EU圏は規制のため除外されている）。

Soraは、ChatGPTの有料サブスクプランの一環として、追加料金なしで提供される。ChatGPTのサブスクリプションに含まれている画像生成のDALL-E 3のような位置付けと言える。

月額20ドルのChatGPT Plusアカウントでは、月に50回まで480pビデオの生成が可能である。

月額200ドルのChatGPT Proアカウントでは、500回の”fast generations”が利用可能で、また”slower generation mode”では無制限での動画生成が可能である。

また、ライブ配信中では、高解像度にすると生成可能数は減る、とも言及されており、動画の生成の速度や解像度によって、クレジット消化の程度が変わるものと思われる。

ChatGTPと同じOpenAIアカウントを使って、https://sora.com/にアクセスし、ログインすることによってSoraを利用することが可能になる。

初めてOpenAIアカウントを使ってログインすることで、Soraのアカウントが作成できるという。

ただし、発表直後から、アクセスが殺到して、現在はSoraのアカウント作成が制限されており、ログインしても以下のようなメッセージが表示される。