73
AI资讯

Ai2 的 Molmo 表明开源可以满足并击败封闭的多模态模型

收录于合集


人们普遍认为,只有像 Google、OpenAI 和 Anthropic 这样的公司,拥有无尽的现金储备和数百名顶级研究人员,才能够制作出最先进的基础模型。但正如其中一位著名人士所说,他们“没有护城河”——Ai2 今天发布了Molmo,这证明了这一点。Molmo 是一种多模态 AI 模型,可以匹配他们的最佳能力,同时又小巧、免费且真正开源。


需要明确的是,Molmo(多模态开放语言模型)是一个视觉理解引擎,而不是像 ChatGPT 这样的全功能聊天机器人。它没有 API,还没有准备好进行企业集成,也不会为您或为自己的目的搜索网络。您可以将其视为这些模型的一部分,它可以查看图像、理解图像并描述或回答有关图像的问题。


Molmo(有 72B、7B 和 1B 参数变体)与其他多模态模型一样,能够识别和回答有关几乎任何日常情况或对象的问题。你是如何使用这台咖啡机的?这张照片中有多少只狗伸出了舌头?菜单上的哪些选项是素食的?这个图表中的变量是什么?这是我们多年来看到的具有不同成功程度和延迟程度的视觉理解任务。


不同之处不一定在于 Molmo 的功能(您可以在下面的演示中看到,或者在此处进行测试),而是它如何实现这些功能。


当然,视觉理解是一个广泛的领域,涵盖了从数田里的羊到猜测一个人的情绪状态再到总结菜单等各种事情。因此,很难描述,更不用说进行定量测试了,但正如 Ai2 首席执行官 Ali Farhadi 在西雅图研究机构总部的演示活动中解释的那样,你至少可以证明两个模型在功能上是相似的。


“我们今天要展示的一点是,开等于闭,”他说,“小现在等于大。”(他澄清说,他的意思是 ==,表示等价,而不是同一性;有些人会欣赏这种细微的区别。)


人工智能发展中几乎不变的一点就是“越大越好”。训练数据越多,最终模型中的参数就越多,创建和操作这些模型的计算能力也就越强。但到了一定时候,你根本无法让模型变得更大:没有足够的数据来做这件事,或者计算成本和时间变得太高,以至于弄巧成拙。你只能利用现有的资源,或者更好的办法是,用更少的资源做更多的事情。


Farhadi 解释说,Molmo 的性能虽然与 GPT-4o、Gemini 1.5 Pro 和 Claude-3.5 Sonnet 等产品相当,但重量(根据最佳估计)只有它们的十分之一。而且它用一个只有十分之一的模型就能达到它们的性能水平。


“人们评估的基准有十几种。从科学角度来说,我不喜欢这个游戏……但我必须向人们展示一个数字,”他解释道。“我们最大的模型是一个小模型,72B,它在这些基准上的表现优于 GPT、Claudes 和 Geminis。同样,对此持保留态度;这是否意味着它真的比它们更好?我不知道。但至少对我们来说,这意味着这是在玩同样的游戏。”


如果你想尝试一下,请随意查看公开演示,它也可以在移动设备上使用。(如果你不想登录,你可以刷新或向上滚动并“编辑”原始提示以替换图像。)


秘诀在于使用更少但质量更好的数据。Ai2 并没有使用数十亿张不可能全部进行质量控制、描述或去重的图库进行训练,而是挑选并注释了 60 万张图像。显然这仍然很多,但与 60 亿张图像相比,这只是沧海一粟——只有百分之几。虽然这遗漏了一些长尾内容,但他们的选择过程和有趣的注释方法为他们提供了非常高质量的描述。


想知道怎么做吗?他们向人们展示一张图片,并让他们大声描述它。事实证明,人们谈论事物的方式与他们写作的方式不同,这不仅会产生准确的结果,而且会产生对话式和有用的结果。Molmo 生成的图像描述丰富而实用。


最好的例证就是它新的、至少在几天内独一无二的“指向”图像相关部分的能力。当被要求数一张照片中的狗(33)时,它会在每只狗的脸上画一个点。当被要求数舌头的数量时,它会在每只舌头上画一个点。这种特异性让它能够执行各种新的零样本操作。而且重要的是,它也适用于 Web 界面:无需查看网站的代码,该模型就能理解如何浏览页面、提交表单等。(Rabbit 最近展示了其 r1 的类似功能,将于下周发布。)


那么这一切为什么重要呢?几乎每天都会有模型问世。谷歌刚刚宣布了一些模型。OpenAI 即将举行演示日。Perplexity 不断在暗示某事。Meta 正在大肆宣传 Llama 版本。


Molmo 完全免费且开源,而且体积小到可以在本地运行。无需 API、无需订阅、无需水冷 GPU 集群。创建和发布该模型的目的是让开发人员和创作者能够制作由 AI 驱动的应用程序、服务和体验,而无需向世界上最大的科技公司之一寻求许可(并支付费用)。


“我们的目标是研究人员、开发人员、应用程序开发人员,以及那些不知道如何处理这些 [大型] 模型的人。针对如此广泛的受众的一个关键原则是我们一直在推行的关键原则,即:让它更容易获得,”Farhadi 说。“我们正在发布我们所做的每一件事。这包括数据、清理、注释、训练、代码、检查点、评估。我们正在发布我们开发的所有相关内容。”


他补充说,他预计人们会立即开始利用这些数据集和代码进行构建,包括那些财大气粗的竞争对手,他们会收集所有“公开可用”的数据,也就是任何尚未确定的数据。(“至于他们是否提到这一点,那是另一回事,”他补充道。)


人工智能世界发展迅速,但巨头们却发现自己正陷入一场逐底竞争,一边将价格压低到最低限度,一边筹集数亿美元来弥补成本。如果类似的功能可以通过免费的开源选项获得,那么这些公司提供的价值真的会如此高昂吗?至少,莫尔莫表明,尽管皇帝是否有衣服仍是一个悬而未决的问题,但他肯定没有护城河。

75069
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|低价转S舞蹈舞蹈卡
舞蹈课
¥7000
年卡|游泳健身
游泳健身
¥2100
年卡|银行课程转让
银行笔试课程
¥2000
次卡|转让编程课
编程课
¥2000
次卡|音乐大师课
声乐课和主持课
¥6000
年卡|转小说推文视频的课程,包括生成视频的永久会员的软件
新媒体视频课程
¥300
次卡|半价转让70节小班课
小班课
¥2800
年卡|长春top star舞蹈课
爵士舞和街舞
¥2490
年卡|由于本人工作原因,没有精力学习
注册会计师
¥2000
年卡|扇贝编程Python
编程
¥1200