ChatGPT agent 完全ガイド：パワポまで作ってくれる自律行動アシスタント

2025年7月17日、OpenAIがChatGPTの新機能「ChatGPT agent」をリリースした。

ChatGPT agentは、Webブラウザ、Web検索、コード実行、データソース接続などの高度なツール群を使いこなして、ユーザーが頼んだタスクを、最初から最後まで自律的に実行できる究極のAIアシスタントである。

例えば、旅行計画のリサーチとExcelファイルの作成、データの収集とプレゼンスライドの作成、購入したい商品の検索と注文などなど、複数のステップを要する複雑な作業を、一つの会話の中で完結させることができる。

ChatGPT agentによって、ChatGPTが単なるチャットアシスタントから、「思考」（情報の推論）と「行動」（オンラインでのタスク実行）の両方を担う、”ほぼ人間”のような主体へと進歩しつつある。

本記事では、ChatGPT agent の実際の操作画面を紹介しながら、ChatGPT agentによって何ができるようになったのか、具体的なユースケースや使い方をまとめた。

ChatGPT agent が出来る事まとめ：自律行動する”ほぼ人間”

従来からChatGPTに存在したテキスト検索機能「Deep Research」、ブラウザ操作機能「Operator」、Googleドライブ等のデータソースと接続する機能「Connectors」などは、それぞれ単一の独立した機能だった。

「ChatGPT agent」は、単一のツールに限定される事なく、こうした複数のツール群を行き来しながら、タスクへのアプローチ方法そのもの（読む、書く、クリックする、コーディングする）を自己判断し、まるで人間のように複雑なタスクを実行してくれるのが強みだ。

「ChatGPT agent」が実行できるツールは、現時点で以下の通りだ。

ツール	概要	用途例
ビジュアルブラウザ	人間と同じ見た目でサイトを表示し、クリックや入力を自動操作（※従来のOperatorと類似）	予約フォーム送信、価格比較サイトでの選択
テキストブラウザ	高速なテキストのみ取得モード（※従来のDeep Researchと類似）	長文記事の一括取得・スクレイピング
ターミナル／コード実行	Python等を実行しファイル生成・API呼び出し	データ解析、パワポスライドの自動生成
コネクタ	Gmail、Google Drive、GitHubなど外部サービス連携	受信メール要約、カレンダー空き時間検索
画像生成API	通常のChatGPTと同様に画像を生成	プレゼン用イラスト、ノベルティデザインの自動生成

ChatGPT agent が利用するツール群の一覧

これらのツールを組み合わせると、一体どんなことが可能になるのか？今までのChatGPTと何が違うのか？

ChatGPT Agentの革新性を理解するためには、実際の使用例を見るのが早い。

以下では、ChatGPT Agentが実際にどのように動作し、どのようなことを実現できるのか、OpenAIのライブ配信の中で紹介された例なども交えながら、スクリーンショットとともに解説していく。

ブラウザを使い旅行の総合プランニングを実行

ChatGPTの有料会員であれば、チャットウィンドウで「Agent」というツールを選択可能になる。

OpenAIのライブ配信では、友人の結婚式に参加するための準備をまとめて依頼するデモが紹介された。

ChatGPTのAgentモードをオンにした状態で、友人の結婚式に参加するため、以下のような調べ物を行うように指示する。

ドレスコードにマッチする装い（天気や場所の雰囲気にマッチしたもの）
新郎新婦のバトラーの滞在するホテル候補（Booking.comの空室情報と価格を掲示）
500ドル以下のギフトを探す

すると、仮想のPC画面を模したビジュアルが表示され、現在エージェントがどのようなタスクを実施しているか、またエージェントの思考過程を覗き見ることができる。

エージェントが作業を実行している間は、別の画面に移動することも可能だ。後から途中の様子を巻き戻してビデオのように再生することも可能なので、エージェントがどのようなプロセスで最終的な結果に至ったのかも確認可能だ。

まずは、Deep Researchのようなテキスト検索を重ね、9月の天気に適したメンズのスーツのオプションをAgentが検討している様子がわかる。

そして、GUIブラウザを用いて、スーツの通販サイトを実際に操作しながら、価格情報などの詳細を収集する。

これは、従来Deep Researchのみでは不可能なことで、視覚的な情報を見ながら、ナビゲーションを進んでいき、さらに深い情報を取得するOperator風の挙動である。

さらに注目すべき点は、人間が、いつでもエージェントに介入したり、方向転換したりすることができる点である。

ChatGPT agentが動作中であっても、エージェントの実行を途中で停止したり、仮想ブラウザの操作を人間が手動で引き継いだりすることができるのだ。

実際に、結婚式のリサーチの途中で、靴のペアの検索を追加するように割り込むと、Agentは最初から作業をやり直すのではなく、計画を微調整することで対応した。

従来のDeep Researchでは、途中で意図と違うリサーチが始まってしまっても、それを途中で止めることができないのはストレスフルだった。

ChatGPT agentは、人間の部下に指示をした時のように、途中経過の報告を受けながら、必要に応じて軌道修正することができるのだ。

そうして完成したレポートは、Deep Researchで出力されるものに近い。

しかしレポートには、Booking.comのホテル情報のスクリーンショットなどが含まれ、GUIブラウザを利用したならではの結果も含まれる。実際、指定した日付で宿泊可能なホテルがピックアップされていた。

さらにこの先、結婚式に着ていくべきスーツやシューズの推奨リストから、実際に「このシューズを購入して」という指示を与えれば、エージェントが購入ページへと進んでくれる。

数表などのデータは、エクセルファイルとして出力させることも可能である。

総合的なプランニングを依頼し、アウトプットに基づいて次のアクションを支持する、というまさに人間のアシスタントとやり取りしているような感覚である。

Googleドライブからデータを探し、パワポでグラフ化まで実行

以上はWebブラウジングが中心の例だったが、GoogleドライブやDropboxなど、会社や自分のプライベートデータへのアクセスをChatGPT agentに与えると、パワポの生成やデータの整理など、より業務に近いタスクを依頼可能だ。

OpenAIのライブ配信の中では、ChatGPT agentの性能評価の数値データをGoogleドライブ上から探させて、Agentに自らグラフ作成とパワポスライドの作成をさせる、というデモが行われた。

6月にChatGPTに追加されたばかりの「Connectors」機能のように、あらかじめDropboxなどのデータソースのアクセス権限を付与しておけば、ChatGPT agentがファイル検索などまで実行してくれるのだ。

さらに、集めた数値データをグラフ化してパワポスライドにまとめるにあたり、ChatGPT agentが自ら画像生成を行って適切なイラストを作成した。

デザインにも配慮したスライドを、ChatGPTが能動的に作ってくれてしまうのは驚異的だ。

こうして集めてきた情報を、ChatGPT agent自らPythonコードをターミナルで実行し、PowerPointのスライドファイルを出力する処理を実行した。

こうして出来上がったスライドが以下である。

ChatGPT agentが、各種ベンチマークテストでどのような成績を収めたのかが、的確にビジュアル化されている。

パワポが苦手な部下に頼むよりもおそらくクオリティの高いスライドが、人間が介在することなく完成してしまうのは、実に恐ろしい。

ステッカーをデザインし、印刷業者に発注

ユーザーが最初に指示をすれば、あとは放置するだけで勝手に作業を実行してくれるChatGPT agentだが、商品の購入など、ユーザーの許可が必要な場面では、ちゃんと確認をしてくれる。

犬の写真を与えて、ステッカーをデザインして発注するようにChatGPT agentに指示をすると、画像生成機能を用いて犬のイラストをデザインした上で、ステッカーの発注サイトの発注画面まで辿り着いた。

ただし、クレカ情報を入力し実際に発注する段階においては、ユーザーの許可を求め、ユーザーが「Take control」をクリックしてブラウザ上の注文画面を操作できるようにしてくれる。

ホテルの予約や、商品の購入など、自分で調べると時間がかかる作業も、ChatGPT agentに頼めば、最後の段階まで進めてくれて、自分はカード情報の入力と購入ボタンのクリックだけ行えば良い。

便利すぎて、人間社会のオンラインでの購買行動を大きく変えてしまう可能性すらありそうだ。

ChatGPT agent の性能評価・ベンチマークスコア

ChatGPT agent は、さまざまなツールを利用することで、o3やGPT-4oのような大規模言語モデル単体としての性能を超えて、総合的な問題解決力が非常に高い。

OpenAIの公式リリースでは、さまざまなベンチマークテストの結果が紹介されているが、ここではagentの特徴を捉えるために、主要なものを抜粋して紹介する。

世界中の専門家が考案した2500問超に及ぶ非常に難易度の高いテスト「Humanity’s Last Exam」では、史上最高のスコアとなる41.6％を達成した。

「Humanity’s Last Exam」は、単純な記憶やインターネット検索では回答できない難度の問題群で構成されており、外部ツールを組み合わせて人間のように考えるChatGPT agentならではの結果である。

また、数学者でも解くのに何日もかかるような数学の難問で構成された「FrontierMath」についても、従来のモデルを大きく超える27.4％の精度を達成している。

ChatGPT agent は、単にオンライン注文や調べ物の代行に役立つだけでなく、数学やプログラミングなど、複雑な思考が必要な高度な問題解決にも有用であることを示している。

また、ExcelやPowerPointなどのファイルを操作できる ChatGPT agent ならではのベンチマークとしては、「SpreadsheetBench」の結果がある。

SpreadsheetBench は、実社会で生じるようなExcelスプレッドシートの操作に関する問題の正答率を計測するものである。人間が71.3%と高スコアであるのに対して、従来のGPT-4oやo3などのモデルは20％前後に留まっており、人間とAIの差が未だ大きい分野だ。

その点、ChatGPT agent は、タスクの45.5％を解決でき、Microsoft Excelの公式のCopilotの20.0％すらも上回る高スコアを叩き出している。

まだ人間レベルとは言えないが、直に追いつく日が来そうだ。

さらに、より複雑で人間的な「ナレッジワーク」（投資分析や市場調査レポートの準備など）についても、目覚ましい性能が示されている。

OpenAIの内部評価で、投資銀行の1-3年目のアナリストが行うようなモデリングタスクで、o3やDeep Researchよりも大きく改善された結果を示している。

以上の代表的な結果が示すように、ChatGPT agent は、ツールの使用のおかげで、単に雑用を自動化するだけでなく、金融などの専門性の高い業務で使えるレベルの知性・認知力を持つに至っている。

ChatGPT agent の使い道：仕事からプライベートまで

ChatGPT agent を活用することで、単純なチャットでの質問＆回答という従来のAIアシスタントの使い道を超えて、さらに幅広い場面での利用が可能になる。

ビジネスシーンで言えば、以下のようなタスクも、ChatGPTに委任できてしまう可能性がある。

リサーチとレポート作成：Web上の情報を幅広く調べ、包括的なレポートを作成。レポートには、テキスト・数表・チャート・画像など含むことができ、ExcelやPowerPoint形式での出力も可能。
データ分析とスプレッドシート操作：スプレッドシートのデータを提供すると、解釈や可視化を実行。Pythonを使ったデータ分析や、編集後のExcelファイルの出力も可能。
ルーチンワークの自動化：社内データやAPIと統合することで、データベースからエントリ取得、スプレッドシート更新、メール送信などのルーチンを実行。
スケジューリング・日程調整：カレンダーとメールをコネクタで接続すれば、空きスロット検索、メール送信、予定調整などが可能。
クリエイティブ作業：指示や仕様書に基づいて、サンプルコードやモックアップ、ブログ記事などを生成。

ChatGPT agent は、これから更に性能が向上していくであろうから、一般的な企業の1年目の新入社員が行うようなタスクは、ほとんどAIエージェントによって代替されていくのではないか、とすら思えてくる。

また、オフィスを超えて、日常のタスクや私生活の充実にも役立ちそうだ。