OpenAI 推出 ChatGPT Agent,具备自主执行复杂任务能力
OpenAI 于上周四(7/17)正式发布 ChatGPT Agent,这款全新 AI 工具能够使用自己的虚拟电脑来完成复杂的数位任务。执行长山姆・奥特曼(Sam Altman)在直播中表示,这项功能结合了先前推出的 Operator 网站操作能力和 Deep Research 深度研究工具,打造出统一的自主代理系统。
图源:X OpenAI 正式发布 ChatGPT Agent
ChatGPT Agent 能够处理从简单对话延伸到具体行动的各种任务,包括查看行事历并根据最新新闻为客户会议做简报、分析竞争对手并制作简报,甚至规划和购买日式早餐食材等。该系统配备了多种网路工具,包括视觉浏览器、文字浏览器以及直接存取 API 的机制,能够灵活选择最佳途径执行任务。
从今日起,Pro、Plus 和 Team 方案使用者可透过撰写工具的下拉选单选取「智慧体模式」来启用此功能。Pro 使用者每月可执行几乎无上限的任务,其它付费方案使用者每月可执行 50 项任务。Enterprise 和 Education 方案使用者将于 7 月获得使用权限。
效能表现亮眼,多项基准测试创新高纪录
ChatGPT Agent 在多项学术评鉴中展现出色表现。在人类终极测验(Humanity's Last Exam)中,该模型创下 43.1% 的新高纪录,这项测验涵盖各产业专家级问题,成绩约为 OpenAI o3 模型的两倍。
图源:OpenAI ChatGPT Agent 在人类终极测验(Humanity's Last Exam)中,创下 43.1% 的新高纪录
在实际工作任务评估方面,ChatGPT Agent 在 DSBench 资料分析任务中达到 89.9% 的准确率,大幅超越人类的 64.1% 表现。在资料建模任务中也以 85.5% 的成绩领先。
图源:OpenAI ChatGPT Agent 在 DSBench 资料分析任务中达到 89.9% 的准确率
SpreadsheetBench 试算表编辑能力测试中,ChatGPT Agent 刷新业界纪录,表现是目前最佳纪录保持者 GPT-4o 的两倍以上,具备直接编辑试算表功能后更提升至 45.5%,远超过 Copilot in Excel 的 20.0%。
图源:OpenAI SpreadsheetBench 试算表编辑能力测试中,ChatGPT Agent 刷新业界纪录
在 OpenAI 内部进行的投资银行分析任务基准测试中,ChatGPT Agent 能够为(财星)500 强公司建置财务模型或建立杠杆收购模型,表现大幅超越其它模型。WebArena 网页浏览测试和 BrowseComp 网路资讯搜寻测试中,该模型同样创下 78.2% 和 68.9% 的最佳成绩。
安全机制完备,但仍需谨慎使用
尽管 ChatGPT Agent 展现强大能力,OpenAI 特别强调安全性考量。奥特曼坦言这是「前沿且实验性」的技术,建议使用者在高风险用途或涉及大量个人资讯时保持谨慎。该系统建立了多层防护机制,包括在执行敏感操作前明确征求使用者许可、主动监督模式,以及主动拒绝执行高风险任务如金融交易等。
为防范对抗性攻击,ChatGPT Agent 经过严谨训练,能识别并抵御第三方恶意指示。系统会持续监控以侦测提示注入攻击,并训练模型遵循严格的指令结构层级。在隐私保护方面,远端浏览器中输入的资料都经过安全处理且不会储存在 ChatGPT 伺服器上,使用者可随时删除浏览资料并登出所有网站工作阶段。
网路安全专家对此技术表达关切。网路安全公司 0rcus 执行长 Nic Adams 建议使用者应给予细致且可撤销的权限范围,包括目标业务、用途、允许的资料元素和到期时间戳记。他强调需要采用逐项任务确认模式,避免将责任转移给使用者而缺乏有意义的控制。
产业竞争加剧,OpenAI 力图维持领先地位
ChatGPT Agent 的推出正值 AI 产业竞争白热化之际。Google、Meta、Amazon 和 Microsoft 等科技巨头都在加强 AI 代理功能开发。Google 本周推出了能代表使用者拨打电话给商家的 Gemini AI 功能,Meta 则挖角多名 OpenAI 顶尖人才,马斯克(Elon Musk)的 xAI 也在本月发布了最新版本的 Grok 聊天机器人。
延伸阅读
Grok Ani全攻略!好感度、换衣服方法教学:靠催眠可一步登天?
Grok 4是什么?xAI发布会懒人包:最贵最聪明AI聊天机器人来了?
对于估值达 3,000 亿美元的 OpenAI 而言,这次发布有助于重申其在 AI 产业的领导地位。该公司面临与最大投资人 Microsoft 的分歧,以及与苹果设计师 Jony Ive 创立的设计公司 io 收购案相关的商标诉讼等挑战。
ChatGPT Agent 能够解析资料、创建试算表和简报,直接与 Microsoft 和 Google 的办公软体竞争。不过奥特曼强调,简报制作功能目前仍处于 Beta 阶段,格式和精致度可能略显阳春。OpenAI 正在训练下一代简报制作功能,未来将能产出更精致完善的内容。
『ChatGPT Agent上线!AI升级成行动助理,能帮你写报告给老板了?』这篇文章最早发布于『加密城市』