您的当前位置:首页>科技咨询>资讯详情

OpenAI开源BrowseComp 重塑Agent浏览器评测

发表于:2025-04-11 12:00:03 浏览:36次 发布者: 网易互联网

《科创板日报》11日讯,今日凌晨,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

猜你喜欢

“百镜大战”打响 智能眼镜尚处早期阶段
“百镜大战”打响 智能眼镜尚处早期阶段
发表于:2025-07-28 浏览:19 发布者: 网易科技
打破谷歌垄断 欧洲两大公司合建搜索引擎
打破谷歌垄断 欧洲两大公司合建搜索引擎
发表于:2024-11-13 浏览:57 发布者: 网易互联网
Meta 旗下 Threads 社交平台将进一步新增广告内
Meta 旗下 Threads 社交平台将进一步新增广告内
发表于:2025-04-25 浏览:34 发布者: 网易科技
消息称谷歌将停止Android开源项目
消息称谷歌将停止Android开源项目
发表于:2025-03-27 浏览:31 发布者: 网易互联网
谦寻控股回应自营商城小程序上线:小程序合法合
谦寻控股回应自营商城小程序上线:小程序合法合
发表于:2025-06-11 浏览:25 发布者: 网易互联网
我们搞到了淘宝闪购的新外卖服,发现帅反而是最
我们搞到了淘宝闪购的新外卖服,发现帅反而是最
发表于:2025-08-26 浏览:14 发布者: 网易互联网
顺丰国际:日韩流向运力再升级
顺丰国际:日韩流向运力再升级
发表于:2025-03-03 浏览:38 发布者: 网易互联网
有大象的肯尼亚,DeepSeek下载量全球第三!
有大象的肯尼亚,DeepSeek下载量全球第三!
发表于:2025-05-14 浏览:36 发布者: 网易互联网
京东:给所有骑手的对象安排工作
京东:给所有骑手的对象安排工作
发表于:2025-04-21 浏览:36 发布者: 网易互联网
Meta 官宣研发可“主动陪聊”AI 聊天机器人 Pro
Meta 官宣研发可“主动陪聊”AI 聊天机器人 Pro
发表于:2025-07-04 浏览:26 发布者: 网易科技