OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导

42
2025-02-26

近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。


事件的起因是 xAI 在其博客上发布了一张图表,展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑,但它仍然被广泛用来评估模型的数学能力。


xAI 的图表显示,Grok3的两个变体 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表现上超过了 OpenAI 当前最佳模型 o3-mini-high。然而,OpenAI 的员工很快指出,xAI 的图表没有包含 o3-mini-high 在 AIME2025上以 “cons@64” 计算的分数。



那么,什么是 cons@64呢?它是 “consensus@64” 的缩写,简单来说,它给模型提供64次尝试回答每个问题的机会,并将生成答案中最常见的答案作为最终答案。可以想象,cons@64的评分机制会显著提升模型的基准分数,因此如果在图表中省略这一数据,可能会让人误以为一个模型的表现超过了另一个模型,但实际上情况并非如此。


Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分数,即模型首次尝试获得的分数,实际上低于 o3-mini-high 的分数。而 Grok3Reasoning Beta 的表现也略逊于 OpenAI 的 o1模型。尽管如此,xAI 仍将 Grok3宣传为 “世界上最聪明的 AI”。


巴布申金在社交媒体上回应称,OpenAI 过去也发布过类似的误导性基准图表,主要是对比自身模型的表现。而一位中立的专家则将各种模型的表现整理成一张更 “准确” 的图表,引发了更广泛的讨论。



此外,AI 研究者纳森・兰伯特指出,一个更为重要的指标却仍然不明朗:各模型取得最佳分数所需的计算(和财务)成本。这也表明,当前大多数 AI 基准测试所传达的信息对于模型的局限性及其优势仍显得有限。



划重点:


🔍 xAI 与 OpenAI 之间关于 Grok3基准测试结果的争论引发广泛关注。  


📊 xAI 的图表未包含 OpenAI 模型的关键评分指标 “cons@64”,可能导致误导。  


💰 AI 模型表现的背后,计算和财务成本仍然是一个未解之谜。  


77426
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400
73
AI资讯

OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导

收录于合集

近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。


事件的起因是 xAI 在其博客上发布了一张图表,展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑,但它仍然被广泛用来评估模型的数学能力。


xAI 的图表显示,Grok3的两个变体 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表现上超过了 OpenAI 当前最佳模型 o3-mini-high。然而,OpenAI 的员工很快指出,xAI 的图表没有包含 o3-mini-high 在 AIME2025上以 “cons@64” 计算的分数。



那么,什么是 cons@64呢?它是 “consensus@64” 的缩写,简单来说,它给模型提供64次尝试回答每个问题的机会,并将生成答案中最常见的答案作为最终答案。可以想象,cons@64的评分机制会显著提升模型的基准分数,因此如果在图表中省略这一数据,可能会让人误以为一个模型的表现超过了另一个模型,但实际上情况并非如此。


Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分数,即模型首次尝试获得的分数,实际上低于 o3-mini-high 的分数。而 Grok3Reasoning Beta 的表现也略逊于 OpenAI 的 o1模型。尽管如此,xAI 仍将 Grok3宣传为 “世界上最聪明的 AI”。


巴布申金在社交媒体上回应称,OpenAI 过去也发布过类似的误导性基准图表,主要是对比自身模型的表现。而一位中立的专家则将各种模型的表现整理成一张更 “准确” 的图表,引发了更广泛的讨论。



此外,AI 研究者纳森・兰伯特指出,一个更为重要的指标却仍然不明朗:各模型取得最佳分数所需的计算(和财务)成本。这也表明,当前大多数 AI 基准测试所传达的信息对于模型的局限性及其优势仍显得有限。



划重点:


🔍 xAI 与 OpenAI 之间关于 Grok3基准测试结果的争论引发广泛关注。  


📊 xAI 的图表未包含 OpenAI 模型的关键评分指标 “cons@64”,可能导致误导。  


💰 AI 模型表现的背后,计算和财务成本仍然是一个未解之谜。  


77426
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400