OpenAIがChatGPTエージェントをリリース、ブラウザやAPIを駆使して複雑なタスクを複数ステップで実行可能

OpenAIのChatGPTに、ウェブサイト対話機能・deep researchのウェブ情報統合力・ChatGPTの会話スキルを統合した一体型のエージェントシステム「ChatGPTエージェント」が登場しました。ChatGPTエージェントはPro、Plus、Teamプランのユーザーを対象に段階的に提供され、EnterpriseおよびEducation向けには2025年7月中に提供が開始される予定です。
ChatGPT エージェントが登場:研究とアクションをつなぐ新たな架け橋 | OpenAI
https://openai.com/ja-JP/index/introducing-chatgpt-agent/
Introducing ChatGPT agent - YouTube

OpenAIはChatGPTエージェントによって、「独自の仮想コンピューターを使用して作業を行い、推論とアクションを滑らかに切り替えながら、複雑なタスクを一貫して処理できる」ようになると述べています。
OpenAIによれば、ChatGPTエージェントはリモートブラウザーを使用してウェブサイトと直接対話できるリサーチプレビュー用のエージェントである「Operator」と、マルチステップのウェブ推論ツールである「deep research」の2つを組み合わせた発展形だとのこと。Operatorはウェブ上でスクロールやクリック、入力といった操作が可能な一方で、詳細な分析やレポート作成には限界がありました。それに対し、deep researchは情報の分析や要約に秀でていたものの、ウェブサイトと対話しながら結果を絞り込んだり、ユーザー認証が必要な情報にアクセスしたりすることができませんでした。この2つを組み合わせることで、クリックやフィルターの適用などを通じて、ウェブサイトとより能動的に関わりながら、正確かつ効率的に情報を取得できるようになったとOpenAIは述べています。
ChatGPTエージェントには、GUIを介してウェブと対話するビジュアルブラウザ、シンプルな推論ベースのクエリに適したテキストブラウザ、さらにはAPIへの直接アクセスなど、あらゆるウェブツールが搭載されているとのこと。ウェブサイトに視覚的にアクセスしたり、APIを通じてさまざまなデータやスコアを取得することが可能で、すべての処理はChatGPT専用のコンピューター上で行われます。
たとえば、以下のムービーでは、ChatGPTエージェントに「シンガポールにあるテック企業向けのオフィス物件」を調査してスライドにまとめるようにテキストプロンプトで依頼しています。入力した男性は一時退席しますが、その間にもChatGPTは指示通りに調査を行った上でスライドに結果をまとめる作業を続けます。
ChatGPT agent Makes Slideshows - YouTube

「サンフランシスコ市の2020年~2024年の年次包括財務報告書(ACFR)をスプレッドシートにまとめて」と依頼すると、ChatGPTエージェントはまずインターネットから年次包括財務報告書を検索し、各年度のACFRのPDFファイルに書かれている金額を項目ごとに分類し、さらに年度で比較できるようにスプレッドシートの表を作成します。
ChatGPT agent Makes Spreadsheets - YouTube

AIの知能の限界をテストするためのベンチマーク「Humanity's Last Exam」では、ChatGPTエージェントの搭載モデルがスコア43.1%という記録を達成しました。これはOpenAI o3やdeep research単体のスコアを大きくしのいでいます。

データ分析とモデリングにまたがる現実的なデータサイエンスのタスクでエージェントを評価するDSBenchでは、「ChatGPTエージェントは従来の最先端モデルを大幅に上回り、特にデータ分析タスクでは人間のパフォーマンスを大きく超える結果を示した」とOpenAIはアピールしています。

現実世界のシナリオから得られたスプレッドシートを編集する能力を基にモデルを評価するSpreadsheetBenchでは、GPT‑4oの2倍以上のパフォーマンスを達成。さらにスプレッドシートを直接編集する機能を用いた場合では、ChatGPTエージェントはExcelのCopilot(20.0%)を超える45.5%のスコアを記録しました。

ウェブ上で見つけにくい情報を検索する能力を測るBrowseCompの結果は以下の通り。

そして、ChatGPTエージェントはウェブ上でアクション実行をChatGPTに委ねる機能となるため、セキュリティの向上が図られています。OpenAIは「私たちは当初から、安全性をシステムの根幹に据えており、Operatorの研究プレビューで導入した制御機能をさらに強化し、より広範なユーザーや端末へのアクセスなどに伴う新たなリスクへの対処も行ってきました」と述べ、「明示的なユーザー確認」「重要なタスクでユーザーに確認と承認を求める『監視モード』」「積極的なリスク対応策」を重点的に行っていると述べました。さらに、プロンプトインジェクション攻撃への防御や不正使用の防止などの対策、堅牢なプライバシー管理や入力内容の秘匿なども行っているとのこと。
ChatGPTエージェントはPro、Plus、Teamプランのユーザーを対象に段階的に提供されており、EnterpriseおよびEducation向けには2025年7月中に提供される予定です。Proユーザーであればほぼ無制限にタスクを実行でき、それ以外のプランでは1カ月当たり50件までのタスクを実行可能で、有償での追加使用もできるとのこと。利用可能であれば、ChatGPTエージェントは、入力欄にある「ツール」のドロップダウンメニューから選択できます。
なお、Operatorの研究プレビューサイトは引き続き30日間利用可能で、その後は提供を終了することが告知されています。
・関連記事
GoogleがPixelシリーズ発表イベント「Made by Google」を2025年8月21日に開催すると発表 - GIGAZINE
OpenAIがオープンモデルのリリースを無期限延期、「さらなる安全性を検証するため」 - GIGAZINE
OpenAIが間もなく独自のAIブラウザをリリースか、ブラウザ市場の3分の2を占めるGoogle Chromeに対抗 - GIGAZINE
OpenAIの文字起こしAPIは音声データを2倍速か3倍速にすると安く使える - GIGAZINE
OpenAIのサム・アルトマンCEO曰く平均的なChatGPTクエリは「小さじ1杯の約15分の1」の水を消費する - GIGAZINE
OpenAI o3を「より長く考え正確に答える」ように強化したモデル「o3-Pro」がリリースされる - GIGAZINE
OpenAI o3でポケモンをプレイする生配信 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ネットサービス, ウェブアプリ, Posted by log1i_yk
You can read the machine translated English article OpenAI releases ChatGPT agent, which can….