您的当前位置:首页>科技咨询>资讯详情

阿里开源首个全模态大模型Qwen2.5-Omni

发表于:2025-03-27 13:00:06 浏览:35次 发布者: 网易互联网

大象新闻记者 李莉 张迪驰

3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,大象新闻记者了解到,该模型可同时处理文本、图像、音频及视频输入,并实时生成文本与自然语音输出。在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni以全维度领先表现刷新业界纪录,大幅超越Google Gemini-1.5-Pro等同类模型,成为目前全球性能最强的全模态大模型。


据介绍,Qwen2.5-Omni采用通义团队首创的Thinker-Talker双核架构与TMRoPE位置编码算法,构建了类人“大脑”与“发声器”协同的端到端架构。通过实时流式处理,模型能统一感知所有模态信息,并高效完成语义理解与语音生成。其创新性的位置嵌入技术还实现了音视频时序对齐,使模型能以接近人类的多感官方式“立体”认知世界,甚至在交互中识别情绪,为复杂任务提供更智能、自然的反馈与决策支持。

在同等规模单模态权威基准测试中,Qwen2.5-Omni展现出跨模态的全面优势:语音理解、图片/视频解析等能力均超越专业单模态模型,其语音生成测评分数达4.51分,与人类水平持平。尤为重要的是,该模型仅以7B参数规模实现了上述突破,大幅降低全模态大模型的产业应用门槛。开发者可免费下载商用,手机等终端设备也能轻松部署运行。

目前,Qwen2.5-Omni已在魔搭社区、Hugging Face平台开源,用户还可通过Qwen Chat直接体验其多模态交互能力。

猜你喜欢

消息称苹果MacBook Air升级OLED屏时间推迟 不会早于2028年
消息称苹果MacBook Air升级OLED屏时间推迟 不会早于2028年
发表于:2024-11-10 浏览:78 发布者: TechWeb
阿里巴巴开源视频生成与编辑模型通义万相Wan2.1
阿里巴巴开源视频生成与编辑模型通义万相Wan2.1
发表于:2025-05-15 浏览:30 发布者: 网易互联网
阿里国际站登顶美区,中国购物APP轮番“炸”榜
阿里国际站登顶美区,中国购物APP轮番“炸”榜
发表于:2025-04-25 浏览:38 发布者: 网易互联网
5月27日数智新版速递
5月27日数智新版速递
发表于:2025-05-27 浏览:34 发布者: 网易互联网
腾讯音乐2024年全年总收入284亿元,在线音乐付
腾讯音乐2024年全年总收入284亿元,在线音乐付
发表于:2025-03-19 浏览:36 发布者: 网易互联网
氪星晚报|vivo开启顶尖人才招募计划:涉及芯片
氪星晚报|vivo开启顶尖人才招募计划:涉及芯片
发表于:2025-05-15 浏览:28 发布者: 网易互联网
警惕!“免密支付”实际是“自动扣款”?已有超
警惕!“免密支付”实际是“自动扣款”?已有超
发表于:2025-03-25 浏览:56 发布者: 网易互联网
到底有多少人,为了双11学习如何凑单退款?
到底有多少人,为了双11学习如何凑单退款?
发表于:2024-11-13 浏览:62 发布者: 网易互联网
AI创收显著,Alphabet第三季度净利润同比增长34%
AI创收显著,Alphabet第三季度净利润同比增长34%
发表于:2024-10-31 浏览:72 发布者: 环球网
“6·18大促”提前开战 今晚去各平台“薅羊毛”
“6·18大促”提前开战 今晚去各平台“薅羊毛”
发表于:2025-05-13 浏览:35 发布者: 网易互联网