您的当前位置:首页>科技咨询>资讯详情

刚刚!阿里推出首个开源多模态深度研究Agent,

发表于:2025-08-16 00:00:08 浏览:18次 发布者: 网易互联网


智东西
作者 李水青
编辑 云鹏

智东西8月15日消息,今日晚间,阿里宣布推出首个开源多模态深度研究智能体(Deep Research Agent)——WebWatcher。

市面上的深度研究工具层出不穷,但大多只能围绕文字进行搜索。WebWatcher的核心创新点在于配备了增强的视觉语言推理能力,能够图文结合思考并调用多种工具,从而使研究结果更深入。

比如,当用户要分析一张图片里的信息,WebWatcher能调用 “图片搜索” 找相关图和说明,用 “OCR” 提取图片里的文字,用 “文字搜索” 查背景知识,用 “网页访问” 看具体网页内容,用 “代码工具” 算数据等。


▲WebWatcher运行案例

实验结果表明,WebWatcher在四个具有挑战性的VQA(视觉问答)基准测试中全面领先于主流的开闭源多模态大模型:

其在Humanity’s Last Exam(HLE)-VL(复杂推理)、BrowseComp-VL(信息检索)、LiveVQA(知识整合)和MMSearch(聚合类信息寻优)等任务测试中均获得高分,超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。


▲WebWatcher测评成绩

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。整个方法包含三大环节:

1、多模态高难度数据生成:构建具备复杂推理链和信息模糊化的训练数据;

2、高质量推理轨迹构建与后训练:生成贴近真实多工具交互的推理轨迹,并通过监督微调(SFT)完成初步能力对齐。然后利用GRPO在复杂任务环境中进一步提升模型的决策能力与泛化性;

3、高难度基准评测:构建并使用BrowseComp-VL对模型的多模态深度推理能力进行验证。

为了更好地评估WebWatcher的能力,阿里提出了BrowseComp-VL,它是BrowseComp在视觉-语言任务上的扩展版本,设计目标是逼近人类专家的跨模态研究任务难度。

GitHub地址:
https://github.com/Alibaba-NLP/WebAgent
论文地址 :
https://arxiv.org/abs/2508.05748


▲论文页面截图

结语:突破视觉语言,向深度搜索Agent迈进

自2025年1月推出WebWalker多Agent框架之后,阿里在过去近八个月里加速迭代,陆续推出了原生Agent搜索模型WebDancer、可执行极复杂信息搜索的Agent搜索模型WebSailor、面向信息检索Agent的数据合成方法WebShaper,向通用搜索Agent不断迈进。

本次,阿里最新推出的多模态深度研究智能体WebWatcher,进一步突破视觉语言深度研究Agent的新前沿,其构建的BrowseComp-VL基准、自动化轨迹生成与训练流程,为解决复杂多模态信息检索任务奠定基础,也为未来多模态深度研究Agent发展提供方向。

猜你喜欢

马斯克罕见表态:不想为特朗普政府“所有事”背
马斯克罕见表态:不想为特朗普政府“所有事”背
发表于:2025-06-02 浏览:30 发布者: 网易IT
GPT-oss太离谱:无提示自行想象编程问题,还重
GPT-oss太离谱:无提示自行想象编程问题,还重
发表于:2025-08-11 浏览:16 发布者: 网易互联网
提“挣钱”被限流?抖音副总裁最新回应
提“挣钱”被限流?抖音副总裁最新回应
发表于:2025-01-06 浏览:48 发布者: 网易互联网
每月100/200美元!Anthropic推高级套餐 加码挑
每月100/200美元!Anthropic推高级套餐 加码挑
发表于:2025-04-10 浏览:36 发布者: 网易IT
OPPO Reno13 你该选择标准版还是Pro?一篇就能看懂
OPPO Reno13 你该选择标准版还是Pro?一篇就能看懂
发表于:2024-11-26 浏览:55 发布者: iMobile手机之家
小红书2024年“rise100”发布:九成新面孔,店
小红书2024年“rise100”发布:九成新面孔,店
发表于:2025-01-15 浏览:47 发布者: 网易互联网
阿里巴巴ADR已经较1月低位累计上涨将近60%,最
阿里巴巴ADR已经较1月低位累计上涨将近60%,最
发表于:2025-02-20 浏览:48 发布者: 网易互联网
网传刘强东送出第一单外卖
网传刘强东送出第一单外卖
发表于:2025-04-21 浏览:35 发布者: 网易互联网
消息称2025年百度OKR更新:降本增效、KPI化、鼓
消息称2025年百度OKR更新:降本增效、KPI化、鼓
发表于:2025-01-17 浏览:57 发布者: 网易互联网
Anthropic预测:2025是智能体系统年!年终总结
Anthropic预测:2025是智能体系统年!年终总结
发表于:2024-12-24 浏览:61 发布者: 网易互联网