ChatGPTの新「Advanced Voice」モードがついに利用可能に！ほぼ人間レベルの音声会話機能でできること

OpenAIが5月に発表したものの、長らく利用できなかったChatGPTの高度なボイス機能「Advanced Voice Mode」が、ついに一般ユーザーにも開放された。

今週（2024年9月末）、すべての有料ユーザーに対してロールアウトが開始され、筆者のiPhoneでも利用できるようになった。

ChatGPTのAdvanced Voiceでは、ほぼ人間と話しているのと変わらないほど高度な会話を、AIと交わすことができる。

信じられないほど高速で、感情も豊かで、AIに人間がどこまで置き換えられてしまうのか怖くなるほどだ。

本記事では、ChatGPTのAdvanced Voice Modeを有効にする方法から、使い方、実際に使ったレビューなど含め詳しく解説する。

Advanced Voice Mode（高度な音声モード）とは

Voice Modeは、ChatGPTとの音声対話を可能にする機能だ。

チャット画面でのテキストベースの会話とは異なり、ユーザーがマイクに向かって音声で質問や指示を行い、AIからも音声で応答を得ることができる。

iPhoneやAndroidでChatGPTのアプリを開き、右下のマークをタップすると利用できる。

ただ、これまで利用できたのは、旧式のVoice Modeだ。
自然な会話が可能ではあるものの、ラグが大きくAIの返事を待たなければならなかったり、AIの声にも感情を感じられなかった。

今週登場したばかりの新しい「Advanced Voice」Modeは、従来のVoice機能を大幅にアップデートしたものと言える。

OpenAIの最新のモデル「GPT-4o」を活用しているので、より早く、より高度な会話が可能になったほか、感情の再現、会話の途中での割り込みなど、「人間らしさ」が増している。

ChatGPTのAdvanced Voiceを有効にする方法

前提として、高度な音声モードは、有料のPlus会員とTeam会員しか使えない。

日本語版のアプリでは、アップデート後のVoice機能が利用可能になると、「高度な音声モードの紹介」が表示されるはずだ。

利用するためには、まず、ChatGPTのアプリを最新バージョンにアップデートする必要がある。

また、新機能が公開されて間もないため、アプリをアップデートするだけでは「高度な音声モード」が表示されないことがある。

その場合は、一度ChatGPTのアプリを削除して、再度インストールし直すと、「高度な音声モード」が利用可能になるはずだ。

「高度な音声モード」がオンになると、チャット画面の右下に、波形のようなマークが表示される。

従来の音声モードはヘッドホンマークだったので、この点が見た目で分かる違いだ。

今回のChatGPTへの高度な音声モードの追加に伴って、選択できる声の種類も増えている。最初に高度な音声モードを起動すると、音声のキャラクターを選択する画面が表示されるはずだ。

高度な音声モードでは、従来の音声モードを使っているときとインターフェースも異なっている。

高度な音声モードの使用中は、単純な円が画面中央に表示される。

従来の音声モードでは、会話中に白い円が画面中心に表示され、発話に応じて形を変えて動きがあったので、そのインターフェースと比べると、かなりシンプルになった印象だ。

「高度な音声モード」のすごすぎる進化ポイントまとめ

ChatGPTの「高度な音声モード（Advanced Voice Mode）」は、従来の標準音声モードから大幅に機能が強化されている。

今回強化された特に重要なポイントを紹介していく。

反応早すぎ！レイテンシーの大幅な改善

特筆すべきは、会話中のレイテンシーの大幅な改善だ。

従来の標準音声モードの平均レイテンシーは、約5.4秒（GPT-4使用時）で、かなり待ち時間が長い印象だった。

これに対して、「高度な音声モード（Advanced Voice）」では、音声入力に対して平均320ミリ秒、最速で232ミリ秒で応答可能であるという。

これは人間の会話における反応時間に近く、より自然な対話が可能になる。

これだけの高速化が実現できた理由は、テキストだけでなく、音声や画像を処理できる”マルチモーダル”なGPT-4oモデルが利用されているためだ。

従来の音声モードは、ユーザーからの音声を、文字起こし専門のWhisperモデルによってテキスト化し、それをGPT-4モデルが読み取って返答を考えていた。

これに対して、高度な音声モードでは、音声を直接聞き取ることができるマルチモーダルなGPT-4oモデルが使われているので、処理経路が短くなり、高速化が実現されている。

ほぼ人間みたい、割り込み会話が可能に

レイテンシーの改善によって、高度な音声モードの使用中は、人間が話を止めると即座にAIが反応してくるので、ほとんど人間と喋っているような感覚に陥る。

さらに、高度な音声モードでは、AIが喋っている途中であっても、人間が割り込んで話し始めることが可能だ。

ちゃんと止まってこちらの話を聞いてくれ、こちらが話終わるとリアクションをしてくれる。

従来の音声モードのように、AIが長い文章をしゃべり続けてしまって、早く別の会話を始めたいのに次に進めないという問題もクリアされているのだ。

笑い声や驚きなど、感情がこもったボイス

新しい高度な音声モードでは、9種類の音声オプション（Breeze、Juniper、Cove、Ember、Arbor、Maple、Sol、Spruce、Vale）が用意されており、好きなキャラクターを選んで会話ができる。

さらに、話す速度などの非言語的な要素も考慮され、また笑い声などの感情をこもった発言もしてくれるので、本当に人間との会話に近くなっている。

ChatGPTのアプリを閉じても会話が継続

新しいChatGPTのボイスモードでは、設定から、「バックグラウンドでの会話」をオンにすることが可能である。

これをオンにすると、他のアプリを使用中やスクリーンがロックされていても会話を継続することができる。

スマホさえ持ち歩いていれば、常に会話相手の日常生活にAIが溶け込んで存在しているような状況を作ることができるのだ。

前回の会話の続きから再開できる

従来の標準音声モードでは、音声モードをオンにするたびに新しいスレッドが開いてしまい、以前の会話の続きを行うことができなかった。

新しい高度な音声モードでは、以前の会話スレッドで音声モードをオンにすれば、そのままそのスレッドでの会話を継続することができる。

これによって、より長い期間、これまでの履歴を踏まえたAIとの会話を継続することができるようになった。

今後のアップデート予定や利用制限

Plus会員とTeam会員は、高度な音声モードの1日の使用時間に制限がある。

制限に近づくと通知が表示され、残り15分になると警告が出る。また、残り3分になると追加の警告が表示される。

制限に達すると会話は終了し、標準音声モードに切り替わってしまう。

また、GPT-4oモデルが5月に発表された際には、Advanced Voice Modeをオンにした状態で、ChatGPTと画面共有をしたり、カメラに映った映像を見せたりして、「映像」についてもリアルタイムで会話が可能というデモが行われていた。

こうしたビデオや画面共有機能は現在のリリースには含まれておらず、将来のアップデートで追加される予定だという。

これだけ自然に会話ができる「高度な音声モード」だが、将来、さらにパソコンの作業中の画面をスクリーンシェアして会話ができるようになったりした場合、すべての人が自分専属のアシスタントを使えるような世界が訪れる。

Voice Modeのさらなるアップデートに引き続き期待したい。

ChatGPT「高度な音声モード」のおすすめの使い道

Advanced Voice Modeは、様々な場面で活用できる可能性を秘めている。

以下に、実際に筆者が使ってみて本当に実用的だったものも含め、いくつかの具体的なユースケースを紹介する。

海外旅行の際の同時通訳アプリとして使用

以前、標準音声モード時代に、当サイトの記事でChatGPTを音声同時通訳として使用する方法を紹介した。

マジで凄すぎる！ChatGPTのスマホアプリを音声同時通訳デバイスにする神技

ChatGPTのスマホアプリで使える「音声モード」は、AIと音声による自然な会話ができたり、周囲の様子をカメラで映してリアルタイムでAIに解説してもらったり、SFの世界のような体験ができる機能だ。日本語への対応はもちろんのこと、英語、フランス語、ドイツ語、中国語などなど数十カ国のあらゆる言語に対応しているので、英会話のレッスンをお願いしたり、海外旅行の際の同時通訳者になってもらったり、外国語の看板を読んで解説してくれるガイドになってもらったり、無限の可能性がある。中でも、非常に便利な使い方としてオススメしたいのが、ポケトークのような同時通訳デバイスとしての利用法だ。プロンプトを工夫すれば、…

その際にも十分実用的なレベルに到達していたが、「高度な音声モード」の登場によって、超ハイクオリティなリアルタイム同時通訳として使えるようになった。

レイテンシーが大幅に短縮されているので、ホテルのカウンターでのやり取りや、レストランでの注文時など、ありとあらゆる場面で、同時通訳をChatGPTにさせることができる。

例えば、以下のようなプロンプトを音声モードのChatGPTに伝えるとよい。

あなたの役割は同時通訳者です。日本語が聞こえたら英語に翻訳し、英語が聞こえたら日本語に翻訳してください。翻訳以外のことは行わないでください。

しかも、「高度な音声モード」では古いスレッドを再開することができるようになったので、一度だけ同時通訳プロンプトを与えれば、その後も継続して自分専属の通訳として活躍してくれる。

例えば、上記のプロンプトに加えて、自分がどの国に来ていて、ビジネス出張なのか観光なのかなど、背景情報を伝えると良いだろう。

そうすれば、以後、そのスレッドを「背景情報を理解した同時通訳」として使い続けることができる。

外国語の学習時に練習相手として使用

語学学習や各種資格の勉強にも、このモードは活用できる。

会話・発音練習のパートナーや、口頭試験の模擬面接官として機能させることができる。

例えば、TOEFLのスピーキングセクションの練習をしています、と伝えれば、例題を出してもらって、それに英語で答え、その回答を添削・評価してもらうこともできる。

英会話教室に通うよりも、ChatGPTの高度な音声モードを使用して1日中ひたすらAIと会話し続けた方が、英語が身につくスピードが圧倒的に速いはずだ。

スマホをオフにしていても会話ができるので、キッチンでの料理中に自分がどのような料理をしているかを英語で喋り続けるなど、ありとあらゆる英会話学習の方法が思いつく。

ビジネスでのアイデア出し

仕事の場面でも、Advanced Voice Modeは強力な味方となる。

ブレインストーミングセッションやアイデア出しの際、AIをパートナーとして活用できる。

また、会議の内容をリアルタイムで要約したり、議事録を作成したりする補助ツールとしても有効だ。

AIと人間が自然に会話ができる時代へ

ChatGPTの高度な音声モード（Advanced Voice Mode）は、本当に私たちの生活を変えてしまう可能性のある革新的な機能だと感じる。

仕事をしているときにアイディアに行き詰まったら、ChatGPTと雑談する中で新しいアイディアの種を探ることができる。

または、作業中のスプレッドシートのスクリーンをシェアして、ChatGPTからスプレッドシートの効率的な使い方を教えてもらうなんてこともできるはず。

さらには、ChatGPTのアプリを子どもの勉強中にオンにしておけば、ありとあらゆる質問に答えてくれる超優秀な家庭教師として使うことさえできるようになるだろう。

私たちの日常生活に、AIが溶け込んで、超優秀な専属アシスタントとして、私たちの効率性を高めてくれる未来がすぐにやってくるだろう。