73
AI资讯

一项具有挑战性的新 AGI 测试难倒了大多数 AI 模型


由著名人工智能研究员 François Chollet 共同创立的非营利组织 Arc Prize Foundation 周一在一篇博客文章中宣布,它已经创建了一项新的具有挑战性的测试,以衡量领先人工智能模型的通用智能。


到目前为止,名为 ARC-AGI-2 的新测试让大多数模型都难以通过。


根据Arc Prize 排行榜,OpenAI 的 o1-pro 和 DeepSeek 的 R1 等“推理”AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大的非推理模型得分约为 1%。


ARC-AGI 测试由一些类似拼图的问题组成,其中人工智能必须从一组不同颜色的方块中识别视觉图案,并生成正确的“答案”网格。这些问题旨在迫使人工智能适应它从未见过的新问题。


Arc Prize Foundation 让 400 多人参加了 ARC-AGI-2 测试,以建立人类基准。平均而言,这些人的“小组”答对了 60% 的测试问题——比任何模型的得分都要好得多。



在X 上的一篇文章中,Chollet 声称 ARC-AGI-2 比测试的第一次迭代 ARC-AGI-1 更能衡量 AI 模型的实际智能。Arc Prize Foundation 的测试旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能。


Chollet 表示,与 ARC-AGI-1 不同,新测试阻止 AI 模型依赖“蛮力”——大量计算能力——来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个重大缺陷。


为了解决第一个测试的缺陷,ARC-AGI-2 引入了一个新指标:效率。它还要求模型能够即时解释模式,而不是依赖记忆。


Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博客文章中写道:“智能不仅仅由解决问题或取得高分的能力来定义。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅仅是‘人工智能能否获得解决任务的技能?’,还有‘效率或成本如何?’”


ARC-AGI-1 保持了大约五年的不败战绩,直到 2024 年 12 月,OpenAI 发布了其高级推理模型 o3,该模型的表现优于所有其他 AI 模型,并在评估中与人类表现相当。然而,正如我们当时所指出的,o3 在 ARC-AGI-1 上的性能提升是付出了高昂代价的。


OpenAI 的 o3 模型版本 o3(低)在 ARC-AGI-1 上首次达到新高度,在测试中得分为 75.7%,但在 ARC-AGI-2 上仅获得 4% 的微弱优势,每个任务使用价值 200 美元的计算能力。



ARC-AGI-2 的发布正值科技行业众多人士呼吁建立新的、不饱和的基准来衡量人工智能的进步之际。Hugging Face 的联合创始人托马斯·沃尔夫最近告诉 TechCrunch,人工智能行业缺乏足够的测试来衡量所谓的通用人工智能的关键特征,包括创造力。


除了新的基准之外,Arc Prize 基金会还宣布了一项新的 Arc Prize 2025 竞赛,要求开发人员在 ARC-AGI-2 测试中达到 85% 的准确率,同时每​​个任务仅花费 0.42 美元。

79654
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|夜曲编程转让课,3500购入
编程课
¥1100
次卡|包头茂业里的引导者课程 少儿乐高 编程
编程课
¥1400
年卡|扇贝编程课程
编程课
¥1458
次卡|出扇贝编程系列课60节
编程课
¥1500
年卡|学而思在线编程课
编程课
¥1500
次卡|转让秦皇创客机器人编程课20节
编程课
¥1500
次卡|乔斯编程
编程课
¥1500
年卡|西瓜编程,西瓜创客编程
编程课
¥1500
次卡|[全新专属]核桃编程C++年课课程账号,我们会提供后续等级考试和竞赛指导服务。关注享粉丝优惠价!。
c++课
¥1599
次卡|[官方正品 全新专属]核桃编程C++年课课程账号,提供后续等级考试和竞赛指导服务。关注享粉丝优惠价!
c++课
¥1599