AIじゃないよ

マジで凄すぎる!ChatGPTのスマホアプリを音声同時通訳デバイスにする神技

当サイトはアフィリエイト広告を一部掲載しています。

2023年9月に、ChatGPTのアプリに音声でAIとやりとりできる機能が一部のユーザーに追加された。
有料のChatGPT Plusに登録しているユーザーであれば誰でも、iOSアプリ、Androidアプリ上でこの機能を利用できるはずだ。

OpenAIの開発した音声認識AIと、音声合成AIのモデルを両方活かした機能だが、驚くほど自然な会話が可能なので驚かされる。
英会話のレッスンをお願いして、AIと英語で会話をしたり、できることは無限大だ。

中でも、非常に便利な使い方としてオススメしたいのが、ポケトークのような同時通訳デバイスとしての利用だ。
プロンプトを工夫すれば、全く知らない言語であっても、違和感なく相手と会話することができてしまう。

驚くほど実用的なレベルで、遅延もかなり少ないため、これからの海外旅行には絶対に持って行った方がいいと思えるほどのクオリティになっている。
まさにドラえもんに出てきた夢の「ほんやくコンニャク」にかなり近い世界が近づいていることを予感させてくれる。

この記事では、ChatGPTアプリを同時通訳としてうまく動かすためのプロンプトを紹介し、この革命的な技術の使いこなし方を解説する。

更に、2024年5月にリリースされた最新モデル「GPT-4o」では、音声認識〜合成が旧来のボイス機能よりも更に高速になり、全くラグのない会話が可能になったため、より一層実用的になった。

5月の発表会から長い時を経て、2024年9月末、ようやくこの「高度なボイス機能」が、一般向けに公開されたところだ。以下の記事で新たなボイス機能についても詳しく解説しているので参考にしてほしい。

本記事では従来の「標準ボイスモード」の画面で解説しているが、新しくなった「高度なボイスモード」でも全く同じように使用できるので、引き続き以下の解説も参考にしてほしい。



ChatGPTの音声会話機能の使い方

音声会話機能は、iOSとAndroidのChatGPTモバイルアプリで利用することができたが、2024年5月にリリースされたMac用のデスクトップアプリでも利用することができるようになった。

あなたがChatGPTの月額20ドルの有料版であるChatGPT Plusに登録していれば、スマホアプリを開くと、右下にヘッドフォンのマークが表示されているはずだ。
これをタップすると、音声認識のモードが起動される。

最初に、ユーザーは5種類の声から、使いたい声を選択することができ、何かを話しかければ、驚くほど自然な会話調の声を返してくれる。

音声会話中は、以下のような円形/波系の図形が表示される。
音声会話中は手を使わずに会話ができ、会話を一時停止、再開、終了するためのボタンが表示されている。

下部に「Start speaking」と表示されているが、この状態の時はこちらがいつでも話し始めることができる。
また、こちらが話終わると、勝手に終わったことを認識して、音声を処理してリアクションの音声を送り返してくれる。

音声会話中に字幕は表示されないが、画面下部のバツボタンをタップして音声会話を終了すると、その会話の最初から最後までの文字起こしがChatGPTとのテキストベースのチャットウィンドウに追加されるので、履歴を確認することも可能だ。

音声会話で使用できるモデルは、GPT-3.5とGPT-4 Turbo、GPT-4oだ。
GPT-4oなど高性能なモデルには、数時間ごとの利用回数に上限があるので、あまり長く会話をしすぎると、この制限に引っかかってしまうかもしれないが、結構な会話のラリーを続けることができる。

ChatGPTを同時通訳に変える神プロンプト

ChatGPTの音声会話機能を、同時通訳のために使うには、少し工夫が必要になる。
なぜなら、本来のChatGPTが想定している形(人間1人とAIの対話)とは異なる使い方をするためだ。

2人の人間が、交互に異なる言語でChatGPTに話しかけ、ChatGPTにはその翻訳だけをしてもらう、というイレギュラーなケースなので、プロンプトを工夫せねばならない。

適切なプロンプトを使わないと、ChatGPTは通訳として働くのではなく、普通に会話の内容に対してリアクションをしてきてしまう場合がある。
例えば、「通訳して」と言った上で自己紹介をしたのに、こちらの言ったことを日本語から英語に訳した後に、その内容に関して「いいですね!もっと詳しく教えて下さい」みたいな余計な追加のコメントをしてきてしまうことがあるのだ。

そこで、音声会話機能をオンにした上で、最初に話しかけるべき内容は次の通りである。

あなたの役割は同時通訳者です。 日本語が聞こえたら英語に翻訳し、 英語が聞こえたら日本語に翻訳してください。 翻訳以外のことは行わないでください。

「翻訳以外のことは行わないで」と伝えることで、余計なリアクションをすることを防げる。
「日本語」や「英語」の部分は、「中国語」「ドイツ語」「イタリア語」などなど、実際に会話をしたい相手の言語に合わせて変更すれば、どんな言語でも翻訳してくれるスーパー翻訳デバイスになる。

実際に中国語で実験してみた様子が以下だ。

ChatGPTが翻訳以外の余計なことは一切することなく、日本語を英語・中国語・ドイツ語などこちらが指定した言語に淡々と翻訳して音声で返してくれていることがわかる。

自分の発言が翻訳されたら、次は会話相手の外国人にも、スマホに向かって喋って貰えば、相手の話した内容を日本語に翻訳して音声で返してくれる。

このプロンプトは、音声機能をオンにした直後に、最初に音声によって伝える必要があるので、覚えておくことをオススメする。

実際に外国人とChatGPTを介して会話してみた

これを、実際に外国人との会話で、どこまで実用的に使えるのかを、友人の中国人に協力してもらって試してみることができた。いったいどれくらい実用的なレベルで翻訳に使えるのだろうか。

実際に音声会話機能を使って日本語と中国語で交互に会話していた時の履歴が以下だ。

まず驚かされるのは、音声認識機能の精度がそもそも非常に高いと言うことで、日本語でも中国語でも、スマホに向かって喋った内容がかなり正確に文字起こしされている。

その上で、それを訳してリアクションをしてくるまでの秒数も数秒で、会話のテンポがほとんど落ちなかった。
音声もかなり自然なので、本当に目の前の人と違和感なく会話をしているような気分になってくる。

また、翻訳をChatGPTのGPT-4モデルが行なっているために、まれに書き起こしが間違っていても、その内容を推測してAIが修正した上で翻訳してくれるので、会話を違和感なく続けることができる。

例えば、上記の会話のうち、後半はダイエットに関する会話で、僕が「基礎代謝量」と言ったのを正しく音声認識できていない。
しかし、その直後の中国語への翻訳は、基礎代謝を正しく訳出している。
文字起こしで少し誤字や聞き取り間違いがあっても、AIが文脈から意味を推測して補完してくれるのだ。

音声認識AIのWhisperと、文章生成AIのChatGPT-4と、音声合成AIのText-to-Speechの3者のコラボレーションによって実現されている驚きの精度だ。

最新の「GPT-4o」モデルの登場で翻訳にも革命が

2024年5月にリリースされたGPT-4oは、従来のテキストと画像のみに対応していたGPT-4 Turboとは異なり、テキスト、画像、音声、ビデオと、より幅広いメディアの入力に対応した真のマルチモーダルモデルだ。

従来のボイス機能は、ユーザーが発話した音声を、Whisperモデルが書き起こして、GPT-4 Turboが回答のテキストを考案し、Text-to-Speechモデルがテキストを音声化していた。
3つのAIモデルが共同作業を行なっているので、どうしてもスピードが落ちることになる。

これに対して、GPT-4oは、音声入力から音声合成までを、すべて一人で完遂できてしまうのが革命的なところ。
ユーザーが発話した音声を、GPT-4o自身が聞き取って、即座に回答を考案し、GPT-4o自身が音声を合成して発言する。

OpenAIによれば、旧来のボイスモードの平均レイテンシーがGPT-3.5で2.8秒、GPT-4で5.4秒であるのに対し、GPT-4oでは0.32秒にまで短縮されており、ほぼ人間と会話しているのと変わらないほどの応答スピードとなった。

GPT-4oのリリース会見で行われたデモでは、イタリア語を話す女性と、英語を話す男性の会話を、リアルタイムで翻訳している様子が見られる。
使われているプロンプトは、上記で紹介しているものとほとんど同じだ。

旧来のボイスモードよりも、更にラグがなくなり、発言を終えると直ちに翻訳を開始してくれることがわかる。

2024年9月、長い空白の時を経て、ついに「高度な音声モード(Advanced Voice Mode)」の広く一般へのロールアウトが始まった。

有料版のユーザーであれば、早速「高度な音声モード」を使ってみることができる。

実際にChatGPTの新しい「高度な音声モード」を使ってみたところ、従来の標準の音声モードに比べて、圧倒的にラグが少なく、本当に人間と会話をしているような錯覚に陥る。

同時通訳として活用する上でも、会話のラグがほとんどなくなるので、本当に実用的なレベルに達したと感じる。

下手をすれば、人間の同時通訳者を雇うよりも、ChatGPTの高度な音声モードの方が翻訳のスピードが速いと思う。

音声会話機能がもたらす無限の可能性への期待

ChatGPTの音声対話機能を利用すると、自分が全く知らない言語でも、最小限のタイムラグで、自然な会話を楽しむことができる。
ChatGPTは日本語と他言語が交互に混ざっても正確に使い分けてくれるため、言語のバリアを感じることが減る。

旅行先で初めて会った言葉の通じない相手との雑談を楽しむことができるかもしれない。全く言語が話せない国に旅行しても、タクシーで道を聞いたり、ホテルの受付で設備について質問することもストレスなくできてしまうかもしれない。

この技術がもっと進歩すれば、将来的には外国語のバリアがなくなるかもしれないとさえ感じる。

ChatGPTの音声対話機能は、人々が言語の壁を超えてコミュニケーションを取る手助けとなり、世界がさらにつながる一歩となるだろう。

音声認識AIも音声合成AIも、信じられないほど技術が進歩していて、本当にドラえもんの「ほんやくコンニャク」がほぼ実現されてしまったと言っても過言ではない

ぜひこの記事を参考に、外国人との会話にChatGPTを同時通訳として使ってみて、未来を感じてみてほしい。



Make a comment

*
*
* (will not be published.)