一项具有挑战性的新 AGI 测试难倒了大多数 AI 模型_AI资讯_AI_新闻资讯

一项具有挑战性的新 AGI 测试难倒了大多数 AI 模型

AI资讯

2025-03-25

由著名人工智能研究员 François Chollet 共同创立的非营利组织 Arc Prize Foundation 周一在一篇博客文章中宣布，它已经创建了一项新的具有挑战性的测试，以衡量领先人工智能模型的通用智能。

到目前为止，名为 ARC-AGI-2 的新测试让大多数模型都难以通过。

根据Arc Prize 排行榜，OpenAI 的 o1-pro 和 DeepSeek 的 R1 等“推理”AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大的非推理模型得分约为 1%。

ARC-AGI 测试由一些类似拼图的问题组成，其中人工智能必须从一组不同颜色的方块中识别视觉图案，并生成正确的“答案”网格。这些问题旨在迫使人工智能适应它从未见过的新问题。

Arc Prize Foundation 让 400 多人参加了 ARC-AGI-2 测试，以建立人类基准。平均而言，这些人的“小组”答对了 60% 的测试问题——比任何模型的得分都要好得多。

在X 上的一篇文章中，Chollet 声称 ARC-AGI-2 比测试的第一次迭代 ARC-AGI-1 更能衡量 AI 模型的实际智能。Arc Prize Foundation 的测试旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能。

Chollet 表示，与 ARC-AGI-1 不同，新测试阻止 AI 模型依赖“蛮力”——大量计算能力——来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个重大缺陷。

为了解决第一个测试的缺陷，ARC-AGI-2 引入了一个新指标：效率。它还要求模型能够即时解释模式，而不是依赖记忆。

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博客文章中写道：“智能不仅仅由解决问题或取得高分的能力来定义。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅仅是‘人工智能能否获得解决任务的技能？’，还有‘效率或成本如何？’”

ARC-AGI-1 保持了大约五年的不败战绩，直到 2024 年 12 月，OpenAI 发布了其高级推理模型 o3，该模型的表现优于所有其他 AI 模型，并在评估中与人类表现相当。然而，正如我们当时所指出的，o3 在 ARC-AGI-1 上的性能提升是付出了高昂代价的。

OpenAI 的 o3 模型版本 o3（低）在 ARC-AGI-1 上首次达到新高度，在测试中得分为 75.7%，但在 ARC-AGI-2 上仅获得 4% 的微弱优势，每个任务使用价值 200 美元的计算能力。

ARC-AGI-2 的发布正值科技行业众多人士呼吁建立新的、不饱和的基准来衡量人工智能的进步之际。Hugging Face 的联合创始人托马斯·沃尔夫最近告诉 TechCrunch，人工智能行业缺乏足够的测试来衡量所谓的通用人工智能的关键特征，包括创造力。

除了新的基准之外，Arc Prize 基金会还宣布了一项新的 Arc Prize 2025 竞赛，要求开发人员在 ARC-AGI-2 测试中达到 85% 的准确率，同时每个任务仅花费 0.42 美元。

0 人点赞

文章来源于网络，如有侵权请联系本站删除

精选二手好课

更多>>

年卡|低价出还有书

专升本

￥1800

次卡|沧州木/电吉他一对一课程转让线上线下均可

吉他课

￥2600

次卡|Hellokid纯欧美英语外教一对一

欧美英语外教一对一

￥12000

年卡|便宜转让

健身年卡+私教课

￥10000

次卡|低价转让

瑜伽

￥75

年卡|JS舞蹈（珠海井岸店）双项教练班年卡转让

古典舞，JAZZ，K-POP，HIPPOP

￥9000

年卡|注册会计师会计、审计、财管强化阶段课程转让

注册会计师

￥3680

次卡|广州奥园广场芒果健身私教课转让

康复课、常规私教课

￥7500

次卡|瑜伽课转让

小班课

￥4263

年卡|大刊牛文课转让

大刊牛文课

￥1000