研究人员是否发现了新的人工智能“缩放定律” ?社交媒体上有人猜测是这个,但专家对此表示怀疑。
人工智能扩展定律是一个非正式的概念,它描述了随着数据集和用于训练模型的计算资源的增加,人工智能模型的性能如何提高。大约一年前,扩大“预训练”——在越来越大的数据集上训练越来越大的模型——是迄今为止占主导地位的定律,至少在大多数前沿人工智能实验室都接受它的意义上。
预训练并未消失,但出现了两个额外的扩展法则,即训练后扩展和测试时扩展,以补充它。训练后扩展本质上是调整模型的行为,而测试时扩展则需要将更多的计算应用于推理(即运行模型)以驱动某种形式的“推理”(参见:像R1这样的模型)。
谷歌和加州大学伯克利分校的研究人员最近在一篇论文中提出了一些网络评论员所描述的第四定律:“推理时间搜索”。
推理时间搜索让模型并行生成查询的多个可能答案,然后从中选择“最佳”答案。研究人员声称,它可以将一年前的模型(如谷歌的 Gemini 1.5 Pro)的性能提升到超越 OpenAI 的 o1 预览版“推理”模型的水平,该模型在科学和数学基准上的表现优于 OpenAI 的o1 预览版“推理”模型。
“通过随机抽取 200 个回复并进行自我验证,Gemini 1.5(一个古老的 2024 年初模型)击败了 o1-preview 并接近 o1,”谷歌博士研究员、该论文的合著者之一 Eric Zhao 在X 上的一系列帖子中写道。“神奇的是,随着规模的扩大,自我验证自然会变得更容易!你可能会认为,解决方案池越大,挑选出正确的解决方案就越难,但事实并非如此!”
不过,一些专家表示,结果并不令人惊讶,并且推理时间搜索在许多场景下可能没有用。
阿尔伯塔大学人工智能研究员兼助理教授马修·古兹戴尔 (Matthew Guzdial) 告诉 TechCrunch,当有良好的“评估功能”时,这种方法效果最佳——换句话说,当可以轻松确定问题的最佳答案时。但大多数问题都不是那么简单。
“如果我们不能编写代码来定义我们想要的东西,我们就不能使用推理时间搜索,”他说。“对于一般的语言交互,我们不能这样做[…]这通常不是解决大多数问题的好方法。”
伦敦国王学院专门研究人工智能的研究员迈克·库克 (Mike Cook) 同意古兹戴尔的评估,并补充说,这凸显了人工智能意义上的“推理”与我们自己的思维过程之间的差距。
“推理时间搜索不会‘提升模型的推理过程’,”库克说。“这只是我们绕过技术局限性的一种方式,这种技术容易犯非常有把握的错误[...]直观地说,如果你的模型有 5% 的时间会犯错,那么检查 200 次针对同一问题的尝试应该会更容易发现这些错误。”
推理时间搜索可能存在局限性,这对于希望以高效计算的方式扩大模型“推理”能力的人工智能行业来说无疑是个坏消息。正如该论文的合著者所指出的那样,如今的推理模型在单个数学问题上可能耗费数千美元的计算成本。
看来,对新的扩展技术的探索将会继续下去。