初心者のためのChatGPT「GPT-4o」新機能全解説：何が変わった？何がすごい？

2024年5月13日、ChatGPTを開発しているOpenAIが、新たなAIモデル「GPT-4o」を発表した。

これは従来最も高性能だったGPT-4 Turboの後継モデルであり、「全て（omni-）」を意味する「o」が名前に加わっている。名前だけを見ると、小さなアップデートのように見えるが、非常に大きな機能のアップデートが行われている。

この記事では、GPT-4 Turboよりもずっと高速で、テキスト、音声、画像、ビデオなどあらゆる形態の入力を受け取れるようになった「GPT-4o」について、その全貌をまとめた。

普段の生活での実用例をはじめ、ビジネスパーソンの仕事や勉強でどのように役立つか、学生や研究者のリサーチにどのように役立つか、GPT-4oが可能にする新たなAIの活用方法も紹介する。

OpenAIの「GPT-4o」は何がすごい？従来との違いは？

GPT-4oモデルは、スピードの高速化など、様々なユーザービリティの向上が図られているが、最も大きな従来のモデルとの違いは、その名前に含まれた「o」（=omni-
）という文字の通り、テキスト以外のあらゆるメディアの入力と、出力を単独で行えるようになった点だ。

つまり、GPT-4oが単独で、音声認識も、画像認識も、ビデオ認識もできるし、画像生成も、音声合成もできちゃうということだ。

例えば、ChatGPTのアプリには、以前から、Voiceモードという対話形式のAIとのチャットが可能なモードが実装されていた。

これは、ユーザーがマイクに向かって喋った内容を認識し、ChatGPTが音声で返答してくれる機能である。

実はこの機能は、テキスト生成モデルである「GPT-4 Turbo」が、音声認識モデルの「Whisper」、音声合成モデルの「TTS」とそれぞれ連携して、3つのAIが共同で実現していた機能だ。

ところが、「GPT-4o」は、1人でこの3役を全てこなすことができるのだ。

従来のChatGPT（GPT-4 Turbo）：ユーザーからの音声の入力を受け取り、Whisperモデルが文字起こしをし、GPT-4 Turboが応答を考え、TTSモデルで音声が出力される
新たなChatGPT （GPT-4o）：ユーザーからの音声の入力を受け取り、GPT-4oモデルが文字起こし・応答の考案・発話まで全て行う

同様に、ChatGPTで画像を生成する際には、GPT-4 Turboと、画像生成AIであるDALL-E 3の組み合わせが使用されていた。GPT-4oにより、これもGPT-4oが単独で行ってくれることになる。

最大の利点は、従来であれば複数のAIが連携する過程で失われていた情報に、最も頭のいいGPT-4oが全てアクセスできるようになり、背景をより深く理解して回答を考えてくれるので、生成されるテキスト・音声・画像の質が、大きく向上しうることにある。

早くGPT-4oの力を体感したいところだが、記事執筆現在（5月18日）の時点では、テキスト生成にはGPT-4oが実装されているが、ボイスモードにはまだ従来のWhisperやTTSが使われている。

OpenAIの発表によれば、今後数週間で、これらのアップデートも順次実装されていくとのことだ。

無課金ChatGPTでもGPT-4oの力を体験できる

従来、ChatGPTの最も高性能なモデルであった「GPT-4 Turbo」モデルを利用するには、ChatGPT Plusに月額20ドルを課金する必要があった。

無料ユーザーが使えるのは、高速だが性能が低いGPT-3.5モデルだけだったのだ。

しかし、なんとGPT-4oのリリースに伴い、GPT-4oが無料ユーザーでも利用できるようになった。

利用回数に制限があるものの、無料アカウントを作成してChatGPTとのチャットを開始すると、最新のGPT-4oによって回答が生成される。

記事執筆時点では、10回とリミットが設定されているようで、10回のチャットの往復をしたところで、「GPT-4oの制限に達しました」と表示された。
ただし、4時間半後には制限がリセットされると表示され、概ね4〜5時間ごとに10回までのリミットが設定されていると思われる。

10回も利用できれば、かなりの質問を行うことができるので、無課金であっても最新の生成AIの恩恵に預かることができるようになったのは大きい。

まだGPT-4oを体験していない人は、ぜひChatGPTのアカウントを作って、その性能を体感してみて欲しい。

また、今後順次開放されている機能も含めると、無料ユーザーでも以下のような機能にアクセスできるようになるとのこと。

Web上の情報を用いた回答：モデルだけでなく、ネット上の情報を検索して回答を生成する機能
データの分析：データをアップロードしての分析・グラフ作成
写真に関するチャット：ユーザーがアップした写真やスクリーンショットの内容認識
ファイルのアップロード：PDFやCSVファイルなどの要約、執筆支援、分析
GPTsとGPTストアの利用：特定の用途専用のカスタムGPTsの利用
メモリー機能：ユーザーの過去のチャットを記憶し、より関連性の高い応答を提供

いずれもこれまで有料ユーザーでないと利用できなかった機能なので、利用回数に上限があるとはいえ、ほぼ全てのChatGPTの優れた機能が使えることになりそうだ。

引き続き、画像生成や、音声・ビデオ機能などについては有料ユーザーに限定されることになるということだろう。

Mac向けChatGPTデスクトップアプリの登場

さらに嬉しいアナウンスとして、GPT-4oのリリースのタイミングで、ChatGPTのMacOS向けのデスクトップアプリもリリースされた。

従来は、ブラウザ上でChatGPTを使うしかなかったので、メッセージングアプリのようなUIで、快適にChatGPTとのチャットを利用できるのが嬉しい。

もちろん、ChatGPTのスマホアプリと同様に、音声による対話が可能なボイスモードも備わっているので、MacでSiriと会話するような形で、高性能なChatGPTとの会話が可能である。

また、デスクトップアプリならではの機能として、Mac上で作業中の画面をスクリーンショットして、ChatGPTにそのスクリーンショットについて質問することができる機能もついている。

GPT-4oは、ビデオインプットも認識することができるので、将来的には静止画のスクリーンショットだけでなく、Macの画面をビデオで共有しながら、作業中の内容についてGPT-4oと音声で会話しながら作業を進めることができるようになるだろう。

まさに全ての人がAIアシスタントを自分のMacの中に持つ時代が近づいている。

GPT-4oと他の主要LLMとの性能比較ベンチマーク

OpenAIは、GPT-4oをGPT-4 TurboなどのOpenAI自身の過去のモデルや、他社の最新のモデルと比較したベンチマーク結果を公開している。

ここでは、LLMの中で、性能トップ争いをしてきたOpenAIのGPT-4 Turbo、AnthropicのClaude 3 Opus、GoogleのGemini Pro 1.5との比較結果を紹介する。

6つのベンチマークテストが用いられており、スコアが高いほどそのモデルが優れている。

あくまでOpenAIが公開しているテスト結果ではあるが、GPT-4oは、6つのうち4つのテストで最高スコアを出しており、GPT-4 TurboやClaude 3 Opusなどよりもさらに性能が高いことが分かる。

Metric	GPT-4o	GPT-4T	Claude 3 Opus	Gemini Pro 1.5
MMLU (%)	88.7	86.5	86.8	81.9
GPQA (%)	53.6	48.0	50.4	N/A
MATH (%)	76.6	72.6	60.1	58.5
HumanEval (%)	90.2	87.1	84.9	71.9
MGSM (%)	90.5	88.5	90.7	88.7
DROP (f1)	83.4	86.0	83.1	78.9

ここで使用されている6つのベンチマークテストは、それぞれ以下のようなものだ。

MMLU (Massive Multitask Language Understanding): 人文科学、社会科学、自然科学など57分野の知識を問う多肢選択式問題。初等から上級レベルまでの幅広い難易度で、知識と問題解決能力を評価する。
GPQA (Graduate-Level Google-Proof Q&A Benchmark): 生物学、物理学、化学の専門家が作成した448問の多肢選択式問題。大学院レベルの高度な内容で、Googleで検索しても答えられない難問を含む。
MATH: 数学と自然科学の7カテゴリーに分類された12,000問の高難度問題。
HumanEval: 164のPythonプログラミング問題からなる手作りデータセット。言語理解、アルゴリズム、簡単な数学を評価し、一部は簡単な面接問題に相当する。
MGSM (Multilingual Grade School Math): 小学校の算数問題250問を10言語に翻訳したベンチマーク。言語モデルの多言語での推論能力を分析し、低リソース言語でも高い性能を示すことを確認。
DROP (Discrete Reasoning Over the content of Paragraphs): 文章中の数値データやイベントを理解・操作し、文脈に基づいて質問に答える読解力を評価。加算、カウント、日付理解など離散的な数学的推論を必要とする。

社会科学から数学、プログラミングまで、幅広いタスクにおいて優れた性能を有するということだ。

GPT-4oがリリースされる前の4月に、LMSYSのChatbot Arenaと呼ばれるLLM同士をユーザーが比較するベンチマークサイトに「im-also-a-good-gpt2-chatbot」という正体不明の超高性能LLMが登場し話題になっていた。

実は、これがGPT-4oだったという。

LMSYSのChatbot Arenaは、大規模言語モデル（LLM）を比較評価するためのオープンプラットフォームで、ユーザーは2つのチャットボットを比較し、より良い応答をしたほうに投票できる。

チャットボットがどのモデルを使用しているかは非公開なので、ブラインドテストである。ユーザーらの投票結果からLLMのランキングが作成され、GPT-4oは正体不明の段階でもトップに君臨しており、ベンチマークテストだけでなく、ユーザーの体感でも明らかに他のモデルよりも優れたパフォーマンスを持つと言えよう。

知っておくべきGPT-4 TurboとGPT-4oの違い全まとめ

多くの人に影響すると思われる高速化、無課金ユーザーへの解放、デスクトップアプリの公開などの主要なアップデートは以上の通りだが、より詳細かつ具体的に、GPT-4oモデルが、従来のGPT-4 Turboなどとどのように変わったかを一通り整理する。

1. 完全にリアルタイムな会話と、笑い声などの感情表現の実装

先述の通り、これまでは音声入力に対して「Whisper → GPT-4 Turbo → TTS」というパイプラインを使って回答の考案と出力を行っていたため、ユーザーの声のトーンや感情をGPT-4 Turboが読み取ることは不可能だった。

GPT-4oになることで、高性能な単一のモデルが、音声認識から音声合成まで全ての工程を担うことで、ユーザーの声のトーンまで考慮して、様々な話し方のスタイルで回答を生成できるようになる。

また、これまでは複数のモデルが関わっていることで、会話の間にラグがどうしても挟まっていたが、ほとんどラグのないリアルタイムの会話が実現できる。

OpenAIによれば、ボイスモードの平均レイテンシーがGPT-3.5で2.8秒、GPT-4で5.4秒であるのに対し、GPT-4oでは0.32秒であるという。

平均的な人間の応答時間が0.21秒らしいので、これは人間に匹敵するほどの応答スピードだ。

さらにGPT-4oでは、笑ったり、歌ったり、感情を表現することまで可能になる。

実際、いくつかのデモ動画が公開されているが、GPT-4oに「親父ギャグ」を言わせた動画などを見ると、会話の”間”や、笑い声、リアクションなどが怖いくらいに「ほぼ人間」という印象を受ける。

記事執筆時点（5月18日）では、まだこの機能は一般にリリースされていないが、これがiPhoneやAndroidのChatGPTアプリに実装されたら、英会話の練習相手や、様々なタスクのコーチ役としてChatGPTが使えて、まさに革命的といえそうだ。

2. 画像・ビデオ認識による究極のアシスタント

GPT-4oは、テキスト、音声、画像、ビデオの入力に対応している。

例えばコンピューター上でプログラミングの学習をしているときに、ビデオをChatGPTに共有しながら音声で会話をすれば、勉強中に生じた疑問や質問を、即座に口頭でChatGPTに聞いて、その場で画面を見ながら回答してもらうことができる。

OpenAIのデモでは、iPadの画面をChatGPTに共有しながら、iPad上に表示した数学の問題を、家庭教師として子どもに教えている様子が見られる。

この機能が正式にリリースされれば、もはや家庭教師も不要な時代が、2024年中に実現されてしまうだろう。

もちろん、スクリーンショットだけでなく、スマートフォンのカメラにアクセスさせると、映像に映っているものをリアルタイムで説明させることもできる。

海外旅行中に、駅のプラットフォームでどの電車に乗ればいいかを質問すれば、カメラに写した看板を翻訳しながら、行き先を一緒に考えてくれるかもしれない。

3. 英語以外の言語での大幅な速度の向上とコストカット

ChatGPT、GPT-4oなどの大規模言語モデルは、ユーザーから与えられたテキストを、まず最初にモデルが理解できる「トークン」へと変換し、そのトークンを読み取って回答を計算・考案している。

このトークン化（Tokenization）のプロセスが、GPT-4oでは強化され、入力をより少ないトークンで表現することができるようになったという。

トークンの効率が向上すると、大規模言語モデルが行う計算の量も少なくなるため、テキスト生成にかかる時間が短縮され、高速になる。

また、コスト面で見ても、GPT-4oなどのAPIサービスは、トークン数に応じた従量課金制なので、トークンの圧縮効率が良くなれば、同じ分量でも、GPT-4 TurboよりもGPT-4oを使った方が安価で済むことになる。

例えば、中国語、日本語、韓国語などの東アジア言語では、トークン数が1.4倍から1.7倍減少しており、その分だけ高速に、かつ安価にテキスト生成が行えるようになっている。

実際、ChatGPTでGPT-4oモデルを使ってみると、従来のGPT-4 Turboよりも圧倒的に高速でAIによる回答が表示されることが分かる。

長い質問や、プログラミングのコードを書いてもらうといった場合に、生成スピードが向上すると如実にストレスが減るので、本当に革命的だ。

なお、APIの価格は以下のとおりで、GPT-4 Turboの実に半額という破格のプライスになっている。

gpt-4-turbo：入力 $10 / 1Mトークン、出力 $30 / 1Mトークン
gpt-4o：入力 $5 / 1Mトークン、出力 $15 / 1Mトークン

GPT-4oは実生活でどのように役立つか

スピードの改善に加えて、音声、ビデオなどの入力も可能になることで、これまでのChatGPTよりも更に便利になることが期待されるGPT-4oだが、具体的には実生活でどのようなシーンで役立つだろうか。

まだすべてのアップデートが一般公開されていないため、その片鱗を覗き見ることしかできないが、OpenAIが公開しているGPT-4oのデモから、GPT-4oならではのユースケースを紹介する。

1. 全くラグのない同時通訳者としてのGPT-4o

従来のボイス機能を使って、ChatGPTのスマホアプリを、多言語の同時通訳者として使う方法は、当サイトでも過去に紹介したことがある。

先に解説した通り、GPT-4oは音声認識〜合成をワンストップで行うため、圧倒的に音声の処理スピードが速いので、同時通訳アプリとしての使用法も、より一層実用的になっている。

OpenAIのGPT-4oのリリース会見で行われたデモでは、英語とイタリア語をChatGPTのiPhoneアプリが完璧に翻訳して、会話を成立させている様子が見られる。

レイテンシーがほぼ人間並のスピードまで高速化したことで、自然な会話が可能になることが期待される。海外旅行では、ChatGPTが心強い味方になってくれるはずだ。

2. 会話による仕事や研究、勉強のリアルタイム支援

Github Copilotなどのプログラミングをアシストするツールが普及しつつあるが、テキストだけでなく音声やビデオでの入力も可能になることで、より自然な仕事や作業のサポートをAIから受けられるようになることが期待される。

ボイス機能がデスクトップアプリに実装されれば、GPT-4oと会話をしながらプログラミングを行い、コードの一部を「Command + C」のショートカットキーでChatGPTアプリに送ることで、コードの内容に踏み込んだ会話も可能になる。

また、スクリーンキャプチャをしながら、画面に写っているコードやグラフについてChatGPTに解説させることも可能だ。

OpenAIのデモでは、Jupyter Notebookでグラフを生成するコードを対話しながら書いた上で、スクリーンキャプチャでGPT-4oにグラフを読み取らせ、グラフから読み取れる情報を説明させている。

これまでは上司や先輩に質問しなければならなかったようなことが、自分のPC上に常駐するAIアシスタントによって24時間いつでも回答・サポートを得られるようになるということだ。

3. 視覚障害のある人の代わりに周囲を見るGPT-4o

GPT-4oはビデオ入力に対応しているため、iPhoneのカメラで周囲を動画撮影した状態で、周囲の環境をGPT-4oに音声で解説させる、という使い方が可能だ。

実際に、OpenAIが公開したデモ動画では、ほとんどラグなく、ユーザーの目の前の池で泳いでいるカモの様子を的確に説明している様子がわかる。

さらに、タクシーが来ていることを認識し、手を上げるタイミングまでAIが指示してくれている。

レイテンシーが極めて小さい超高速なGPT-4oだからこそのユースケースで、夢物語のようだが、この技術が既に実現されていることに驚かされる。

マルチモーダルなAIがもたらす日常生活の革新

「マルチモーダル」とは、複数の種類のデータを組み合わせて処理するAIの技術を指す。

例えば、テキスト、画像、音声、動画など、異なるモダリティ（データの種類）を同時に扱うことができるということで、より人間に近い知覚や理解が可能になる。

GPT-4oは、現在地球上に存在するマルチモーダルなAIの中で、最も高性能で、実用レベルまで高速化されたAIだと言えよう。

これまでも、画像のアップロードなどは可能だったが、リアルタイムでカメラに写した映像や、リアルタイムで作業中のPC画面などを共有しながら、まるで人間のようなAIと音声で対話することは、私たちの生活をすっかり変えてしまうほどのインパクトがあるように思える。

小学生が算数の宿題に取り組む際に、画面を一緒に見ながらアドバイスをしてくれる家庭教師として、あるいは、PCで文章作成やデータ分析の仕事中に、スクリーンキャプチャを見ながら一緒に考えてくれる優秀なアシスタントとして、GPT-4oが日常生活のあらゆる場面に入り込んでくるだろう。

早くすべての機能がiPhoneアプリやMacアプリに実装されることを願いながら、AIの進化に乗り遅れないように情報を追い続けねばと思っている。