微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能_AI资讯_AI_新闻资讯

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

AI资讯

2025-02-25

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作，难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好，但在不同应用场景中的泛化能力较差。例如，Pix2Act 和 WebGUM 模型在 UI 导航方面表现优异，而 OpenVLA 和 RT-2则更适合机器人操控，但它们往往需要分别进行训练，难以跨越数字和物理环境的界限。

“Magma” 模型的推出，正是为了克服这些局限性。它通过引入一套强大的训练方法，整合多模态理解、动作定位和规划能力，旨在让 AI 代理在各种环境中无缝运行。Magma 的训练数据集包含了3900万样本，包括图像、视频和机器人动作轨迹。此外，该模型还采用了两项创新技术:“可标记集”（Set-of-Mark，SoM）和 “轨迹标记”(Trace-of-Mark，ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象，后者则使其能够追踪物体随时间的移动，提升未来行动的规划能力。

“Magma” 采用了先进的深度学习架构和大规模的预训练技术，以优化其在多个领域的表现。模型使用 ConvNeXt-XXL 视觉主干处理图像和视频，LLaMA-3-8B 语言模型负责处理文本输入。这种架构使 “Magma” 能够高效整合视觉、语言与动作执行。经过全面的训练，模型在多个任务上都取得了优异的成绩，显示出强大的多模态理解和空间推理能力。

划重点:

🌟 Magma 模型经过3900万多样本训练，具备强大的多模态学习能力。

🤖 该模型成功整合视觉、语言和行动，克服了现有 AI 模型的局限性。

📈 Magma 在多项基准测试中表现出色，显示出较强的泛化能力和优异的决策执行能力。

0 人点赞

文章来源于网络，如有侵权请联系本站删除

精选二手好课

更多>>

次卡|沧州木/电吉他一对一课程转让线上线下均可

吉他课

￥2600

次卡|Hellokid纯欧美英语外教一对一

欧美英语外教一对一

￥12000

年卡|便宜转让

健身年卡+私教课

￥10000

次卡|低价转让

瑜伽

￥75

年卡|JS舞蹈（珠海井岸店）双项教练班年卡转让

古典舞，JAZZ，K-POP，HIPPOP

￥9000

年卡|注册会计师会计、审计、财管强化阶段课程转让

注册会计师

￥3680

次卡|广州奥园广场芒果健身私教课转让

康复课、常规私教课

￥7500

次卡|瑜伽课转让

小班课

￥4263

年卡|大刊牛文课转让

大刊牛文课

￥1000

年卡|26考研英语课程转让

考研课

￥600