ChatGPT Agent上线！AI升级成行动助理，能帮你写报告给老板了？

OpenAI 推出 ChatGPT Agent，具备自主执行复杂任务能力
OpenAI 于上周四（7/17）正式发布 ChatGPT Agent，这款全新 AI 工具能够使用自己的虚拟电脑来完成复杂的数位任务。执行长山姆・奥特曼（Sam Altman）在直播中表示，这项功能结合了先前推出的 Operator 网站操作能力和 Deep Research 深度研究工具，打造出统一的自主代理系统。
图源：X OpenAI 正式发布 ChatGPT Agent
ChatGPT Agent 能够处理从简单对话延伸到具体行动的各种任务，包括查看行事历并根据最新新闻为客户会议做简报、分析竞争对手并制作简报，甚至规划和购买日式早餐食材等。该系统配备了多种网路工具，包括视觉浏览器、文字浏览器以及直接存取 API 的机制，能够灵活选择最佳途径执行任务。
从今日起，Pro、Plus 和 Team 方案使用者可透过撰写工具的下拉选单选取「智慧体模式」来启用此功能。Pro 使用者每月可执行几乎无上限的任务，其它付费方案使用者每月可执行 50 项任务。Enterprise 和 Education 方案使用者将于 7 月获得使用权限。
效能表现亮眼，多项基准测试创新高纪录
ChatGPT Agent 在多项学术评鉴中展现出色表现。在人类终极测验（Humanity's Last Exam）中，该模型创下 43.1% 的新高纪录，这项测验涵盖各产业专家级问题，成绩约为 OpenAI o3 模型的两倍。
图源：OpenAI ChatGPT Agent 在人类终极测验（Humanity's Last Exam）中，创下 43.1% 的新高纪录
在实际工作任务评估方面，ChatGPT Agent 在 DSBench 资料分析任务中达到 89.9% 的准确率，大幅超越人类的 64.1% 表现。在资料建模任务中也以 85.5% 的成绩领先。
图源：OpenAI ChatGPT Agent 在 DSBench 资料分析任务中达到 89.9% 的准确率
SpreadsheetBench 试算表编辑能力测试中，ChatGPT Agent 刷新业界纪录，表现是目前最佳纪录保持者 GPT-4o 的两倍以上，具备直接编辑试算表功能后更提升至 45.5%，远超过 Copilot in Excel 的 20.0%。
图源：OpenAI SpreadsheetBench 试算表编辑能力测试中，ChatGPT Agent 刷新业界纪录
在 OpenAI 内部进行的投资银行分析任务基准测试中，ChatGPT Agent 能够为(财星)500 强公司建置财务模型或建立杠杆收购模型，表现大幅超越其它模型。WebArena 网页浏览测试和 BrowseComp 网路资讯搜寻测试中，该模型同样创下 78.2% 和 68.9% 的最佳成绩。
安全机制完备，但仍需谨慎使用
尽管 ChatGPT Agent 展现强大能力，OpenAI 特别强调安全性考量。奥特曼坦言这是「前沿且实验性」的技术，建议使用者在高风险用途或涉及大量个人资讯时保持谨慎。该系统建立了多层防护机制，包括在执行敏感操作前明确征求使用者许可、主动监督模式，以及主动拒绝执行高风险任务如金融交易等。
为防范对抗性攻击，ChatGPT Agent 经过严谨训练，能识别并抵御第三方恶意指示。系统会持续监控以侦测提示注入攻击，并训练模型遵循严格的指令结构层级。在隐私保护方面，远端浏览器中输入的资料都经过安全处理且不会储存在 ChatGPT 伺服器上，使用者可随时删除浏览资料并登出所有网站工作阶段。
网路安全专家对此技术表达关切。网路安全公司 0rcus 执行长 Nic Adams 建议使用者应给予细致且可撤销的权限范围，包括目标业务、用途、允许的资料元素和到期时间戳记。他强调需要采用逐项任务确认模式，避免将责任转移给使用者而缺乏有意义的控制。
产业竞争加剧，OpenAI 力图维持领先地位
ChatGPT Agent 的推出正值 AI 产业竞争白热化之际。Google、Meta、Amazon 和 Microsoft 等科技巨头都在加强 AI 代理功能开发。Google 本周推出了能代表使用者拨打电话给商家的 Gemini AI 功能，Meta 则挖角多名 OpenAI 顶尖人才，马斯克（Elon Musk）的 xAI 也在本月发布了最新版本的 Grok 聊天机器人。
延伸阅读
Grok Ani全攻略！好感度、换衣服方法教学：靠催眠可一步登天？
Grok 4是什么？xAI发布会懒人包：最贵最聪明AI聊天机器人来了？
对于估值达 3,000 亿美元的 OpenAI 而言，这次发布有助于重申其在 AI 产业的领导地位。该公司面临与最大投资人 Microsoft 的分歧，以及与苹果设计师 Jony Ive 创立的设计公司 io 收购案相关的商标诉讼等挑战。
ChatGPT Agent 能够解析资料、创建试算表和简报，直接与 Microsoft 和 Google 的办公软体竞争。不过奥特曼强调，简报制作功能目前仍处于 Beta 阶段，格式和精致度可能略显阳春。OpenAI 正在训练下一代简报制作功能，未来将能产出更精致完善的内容。
『ChatGPT Agent上线！AI升级成行动助理，能帮你写报告给老板了？』这篇文章最早发布于『加密城市』
ChatGPT Agent上线！AI升级成行动助理，能帮你写报告给老板了？

创作者的更多内容

实时新闻

ChatGPT Agent上线！AI升级成行动助理，能帮你写报告给老板了？

创作者的更多内容

实时新闻

热门文章