阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni_AI资讯_AI_新闻资讯

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

AI资讯

2025-03-27

3月27日，阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

Qwen2.5-Omni采用了创新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。其中，Thinker模块如同大脑，负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官，以流式方式接收Thinker实时输出的语义表征与文本，流畅合成离散语音单元。此外，该模型还提出了一种新的位置编码技术TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

该模型在实时音视频交互方面表现出色，支持分块输入和即时输出，能够实现完全实时的交互。在语音生成的自然性和稳定性方面，Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面，Qwen2.5-Omni在同等规模的单模态模型进行基准测试时，表现出卓越的性能，其音频能力优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。此外，Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中，Qwen2.5-Omni达到了SOTA的表现。在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

目前，Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放，用户可以通过Demo体验互动功能，或是通过Qwen Chat直接发起语音或视频聊天，沉浸式体验全新的Qwen2.5-Omni模型强大性能。

0 人点赞

文章来源于网络，如有侵权请联系本站删除

精选二手好课

更多>>

年卡|低价出还有书

专升本

￥1800

次卡|沧州木/电吉他一对一课程转让线上线下均可

吉他课

￥2600

次卡|Hellokid纯欧美英语外教一对一

欧美英语外教一对一

￥12000

年卡|便宜转让

健身年卡+私教课

￥10000

次卡|低价转让

瑜伽

￥75

年卡|JS舞蹈（珠海井岸店）双项教练班年卡转让

古典舞，JAZZ，K-POP，HIPPOP

￥9000

年卡|注册会计师会计、审计、财管强化阶段课程转让

注册会计师

￥3680

次卡|广州奥园广场芒果健身私教课转让

康复课、常规私教课

￥7500

次卡|瑜伽课转让

小班课

￥4263

年卡|大刊牛文课转让

大刊牛文课

￥1000

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

AI资讯

2025-03-27

文章来源于网络，如有侵权请联系本站删除