ChatGPTのスマホアプリで使える「音声モード」は、AIと音声による自然な会話ができたり、周囲の様子をカメラで映してリアルタイムでAIに解説してもらったり、SFの世界のような体験ができる機能だ。
日本語への対応はもちろんのこと、英語、フランス語、ドイツ語、中国語などなど数十カ国のあらゆる言語に対応しているので、英会話のレッスンをお願いしたり、海外旅行の際の同時通訳者になってもらったり、外国語の看板を読んで解説してくれるガイドになってもらったり、無限の可能性がある。
中でも、非常に便利な使い方としてオススメしたいのが、ポケトークのような同時通訳デバイスとしての利用法だ。
プロンプトを工夫すれば、全く知らない言語であっても、違和感なく相手と会話することができてしまう。
驚くほど実用的なレベルで、遅延もかなり少ないため、これからの海外旅行には、絶対にChatGPT入りのスマホを持って行った方がいいと思えるほどのクオリティになっている。
まさにドラえもんに出てきた夢の「ほんやくコンニャク」にかなり近い世界が近づいていることを予感させてくれる。
ChatGPTのiOSアプリ・Androidアプリで、無料ユーザーでも音声機能は体験でき、有料のPlus, Pro, Teamsプランに加入しているとビデオやスクリーン共有を含む全ての機能が利用できる。
OpenAIの開発したテキスト、音声、ビデオを全て処理できるGPT-4oモデルを活かした機能だが、本当に「見る・聞く・話す」ができる五感を備えた人間と会話しているようだ。
この記事では、ChatGPTアプリを同時通訳としてうまく動かすためのプロンプトを紹介し、この革命的な技術の使いこなし方を解説する。
ChatGPTの音声会話機能の使い方
音声会話機能は、iOSとAndroidのChatGPTモバイルアプリで利用することができる。
また、MacやWindows用のデスクトップアプリでも音声モードは利用できるが、ビデオ共有・スクリーンショット共有機能は、執筆時点でまだ実装されていない。
スマホ版のChatGPTアプリを開くと、右下に音の波形のようなマークが表示されているはずだ。これをタップすると、音声認識のモードが起動される。

ユーザーは9種類(+期間限定のサンタボイス)の声から、使いたい声色を選択することができる。
この時点でサンプルボイスが再生されるが、ほとんどAIのような不自然さを感じない、驚くほど自然なボイスが生成されている。

対話モードが無事に起動されると、画面の中央に水色の球体が表示される。
画面下部のアイコンから、マイクをミュートしたり、ビデオカメラを起動して映像をリアルタイムで見せたり、写真の撮影・アップロード、スクリーンの共有などをオンにすることも可能である。

この状態で何かを話しかければ、驚くほど自然な会話調の声を返してくれる。笑ったり、早口にしたり、感情の抑揚すらも自然に表現される。
音声モード中は、録音のオンオフなど手を動かすことは不要で、人間が話し終えれば、勝手にAIがリアクションしてくれる。また、AIが喋っている途中であっても、人間が割り込んで次の話題を振ることもできる。
音声会話中に字幕は表示されないが、画面下部のバツボタンをタップして音声会話を終了すると、その会話の最初から最後までの文字起こしがChatGPTとのテキストベースのチャットウィンドウに追加されるので、履歴を確認することも可能だ。

数時間ごとの利用回数に上限があるので、あまり長く会話をしすぎると、この制限に引っかかってしまうかもしれない。
ただ、常識的な量の会話をするくらいであれば、上限に到達することなく、かなり会話のラリーを続けることができる。
ChatGPTを同時通訳に変える神プロンプト
ChatGPTの音声会話機能を、同時通訳のために使うには、少し工夫が必要になる。
なぜなら、本来のChatGPTが想定している形(人間1人とAIの対話)とは異なる使い方をするためだ。
2人の人間が、交互に異なる言語でChatGPTに話しかけ、ChatGPTにはその翻訳だけをしてもらう、というイレギュラーなケースなので、プロンプトを工夫せねばならない。
適切なプロンプトを使わないと、ChatGPTは通訳として働くのではなく、普通に会話の内容に対してリアクションをしてきてしまう場合がある。
例えば、「通訳して」と言った上で自己紹介をしたのに、こちらの言ったことを日本語から英語に訳した後に、その内容に関して「いいですね!もっと詳しく教えて下さい」みたいな余計な追加のコメントをしてきてしまうことがあるのだ。
そこで、音声会話機能をオンにした上で、最初に話しかけるべき内容は次の通りである。
あなたの役割は同時通訳者です。 日本語が聞こえたら英語に翻訳し、 英語が聞こえたら日本語に翻訳してください。 翻訳以外のことは行わないでください。
「翻訳以外のことは行わないで」と伝えることで、余計なリアクションをすることを防げる。
「日本語」や「英語」の部分は、「中国語」「ドイツ語」「イタリア語」などなど、実際に会話をしたい相手の言語に合わせて変更すれば、どんな言語でも翻訳してくれるスーパー翻訳デバイスになる。
実際に中国語で実験してみた様子が以下だ。

ChatGPTが翻訳以外の余計なことは一切することなく、日本語を英語・中国語・ドイツ語などこちらが指定した言語に淡々と翻訳して音声で返してくれていることがわかる。
自分の発言が翻訳されたら、次は会話相手の外国人にも、スマホに向かって喋って貰えば、相手の話した内容を日本語に翻訳して音声で返してくれる。
このプロンプトは、音声機能をオンにした直後に、最初に音声によって伝える必要があるので、覚えておくことをオススメする。
実際に外国人とChatGPTを介して会話してみた
これを、実際に外国人との会話で、どこまで実用的に使えるのかを、友人の中国人に協力してもらって試してみることができた。いったいどれくらい実用的なレベルで翻訳に使えるのだろうか。
実際に音声会話機能を使って日本語と中国語で交互に会話していた時の履歴が以下だ。

まず驚かされるのは、音声認識機能の精度がそもそも非常に高いと言うことで、日本語でも中国語でも、スマホに向かって喋った内容がかなり正確に文字起こしされている。
その上で、それを訳してリアクションをしてくるまでの秒数も数秒で、会話のテンポがほとんど落ちなかった。
音声もかなり自然なので、本当に目の前の人と違和感なく会話をしているような気分になってくる。
また、まれに書き起こしが間違っていても、翻訳するにあたってAIが正しい内容を推測して修正した上で翻訳してくれるので、会話を違和感なく続けることができる。
例えば、上記の会話のうち、後半はダイエットに関する会話で、僕が「基礎代謝量」と言ったのを正しく音声認識できていない。
しかし、その直後の中国語への翻訳は、基礎代謝を正しく訳出している。
文字起こしで少し誤字や聞き取り間違いがあっても、AIが文脈から意味を推測して補完してくれるのだ。

英語ではチャット履歴の文字起こしを含めてほぼ完璧なのだが、日本語を使うと、終了後にチャット履歴を見返した際、結構日本語の文字起こしに誤字が目立つ。
とはいえ、音声対話モード中は、会話が食い違うことなく継続でき、日本語力不足を感じることもないので、AIによる文脈の補完がかなりうまく機能しているのだと思われる。
ビデオ共有機能でさらに「専属通訳ガイド」として進化
2024年12月にリリースされたばかりのビデオ・スクリーン共有機能によって、より一層ChatGPTアプリの海外旅行時の通訳としての活躍の幅が広がった。
単なる同時通訳デバイスを超えた、真の専属通訳ガイドとして進化したと言えよう。
ChatGPTのスマホアプリで、音声モードを起動したのち、ビデオアイコンをタップすると、iPhoneやAndroidスマホのカメラの映像を、リアルタイムでChatGPTに解析させることができる。
例えば、筆者がドイツ旅行中に購入した入浴剤のパッケージを見せながら、それぞれの入浴剤の名前の意味や、効能について聞いてみると、丁寧に解説してくれた。

筆者が「ドイツの薬局で入浴剤を選ぶのを手伝って」というと、パッケージを読み解きながら、左右の商品がそれぞれどのような商品であるかを解説してくれている。

映像や静止画をChatGPTに渡して、しかもそれについて音声で会話ができるようになると、外国語がめちゃできる友達が常に自分の隣にいてくれるような状態で、海外旅行を楽しむことができる。
お土産ショップで商品パッケージの外国語が読めない時、駅やバス停で次の電車・バスが何時に来るかが読み取れない時、駅構内の看板の意味がわからない時、いつでもChatGPTアプリを取り出せば、即座に日本語に翻訳して解説してくれる。
たとえ英語が全くできなくても、スマホにChatGPTアプリさえ入っていれば、誰でも気軽に海外旅行ができてしまう時代が到来したのだ。
数年前にこんな話を聞かされていたら、きっとSFの世界だと感じていたかもしれない。
ここ1〜2年のAI技術の急速な発展で、突如としてSFが現実世界に実現されてしまったことに衝撃を受ける。
見る・聞く・話すが可能な「GPT-4o」モデルがもたらした革命
2024年5月にリリースされたGPT-4oは、従来のテキストと画像のみに対応していたGPT-4 Turboとは異なり、テキスト、画像、音声、ビデオと、より幅広いメディアの入力に対応した真のマルチモーダルモデルだ。
従来のボイス機能は、ユーザーが発話した音声を、Whisperモデルが書き起こして、GPT-4 Turboが回答のテキストを考案し、Text-to-Speechモデルがテキストを音声化していた。
3つのAIモデルが共同作業を行なっているので、どうしてもスピードが落ちることになる。
これに対して、GPT-4oは、音声入力から音声合成までを、すべて一人で完遂できてしまうのが革命的なところ。
ユーザーが発話した音声を、GPT-4o自身が聞き取って、即座に回答を考案し、GPT-4o自身が音声を合成して発言する。
OpenAIによれば、旧来のボイスモードの平均レイテンシーがGPT-3.5で2.8秒、GPT-4で5.4秒であるのに対し、GPT-4oでは0.32秒にまで短縮されており、ほぼ人間と会話しているのと変わらないほどの応答スピードとなった。
このGPT-4oが、発表から4ヶ月経った2024年9月にChatGPTアプリの「高度な音声モード」に実装され、さらに2024年12月に、とうとうビデオ共有・スクリーン共有機能までもがロールアウトされた。
同時通訳として活用する上でも、会話のラグがほとんどないし、ビデオカメラで外国語のパッケージを映しながらAIが瞬時に解説してくれる様子を体験すると、本当に実用的なレベルに達したと感じる。
下手をすれば、人間の同時通訳者を雇うよりも、ChatGPTの高度な音声モードの方が翻訳のスピードが速いと思う。
音声会話機能がもたらす無限の可能性への期待
ChatGPTの音声対話機能を利用すると、自分が全く知らない言語でも、最小限のタイムラグで、自然な会話を楽しむことができる。
ChatGPTは日本語と他言語が交互に混ざっても正確に使い分けてくれるため、言語のバリアを感じることが減る。
旅行先で初めて会った言葉の通じない相手との雑談を楽しむことができるかもしれない。全く言語が話せない国に旅行しても、タクシーで道を聞いたり、ホテルの受付で設備について質問することもストレスなくできてしまうかもしれない。
この技術がもっと進歩すれば、将来的には外国語のバリアがなくなるかもしれないとさえ感じる。
ChatGPTの音声対話機能は、人々が言語の壁を超えてコミュニケーションを取る手助けとなり、世界がさらにつながる一歩となるだろう。
音声認識AIも音声合成AIも、信じられないほど技術が進歩していて、本当にドラえもんの「ほんやくコンニャク」がほぼ実現されてしまったと言っても過言ではない
ぜひこの記事を参考に、外国人との会話にChatGPTを同時通訳として使ってみて、未来を感じてみてほしい。