摘要:在一项令人大开眼界的研究中,研究人员发现 GPT-3(一种流行的人工智能语言模型)在解决智力测试和 SAT 中常见的推理问题方面,其表现与大学本科生相当。然而,该研究的作者质疑 GPT-3 是否只是由于其训练数据集而模仿人类推理,或者它是否正在利用一种新颖的认知过程。
研究人员警告说,尽管 GPT-3 取得了令人印象深刻的结果,但它也有其局限性,并且在某些任务上表现不佳。他们希望将来能够更深入地研究此类人工智能模型所使用的底层认知过程。
关键事实:
- 加州大学洛杉矶分校心理学家的研究表明,AI 语言模型 GPT-3 在解决某些推理问题时的表现与大学生相似。
- 尽管性能出色,GPT-3 在处理对人类来说简单的任务(例如使用工具来解决物理任务)时仍然表现不佳。
- 研究人员旨在调查人工智能语言模型是否开始像人类一样“思考”,或者它们是否正在使用完全不同的方法来模仿人类思维。
资料来源:加州大学洛杉矶分校
人们无需任何特殊的培训或实践,就可以通过将新问题与熟悉的问题进行比较并将解决方案扩展到新问题来轻松解决新问题。这个过程被称为类比推理,长期以来一直被认为是人类独有的能力。
但现在人们可能不得不为街区里的新孩子腾出空间。
加州大学洛杉矶分校心理学家的研究表明,令人惊讶的是,当被要求解决智力测试和 SAT 等标准化考试中通常出现的推理问题时,人工智能语言模型 GPT-3 的表现与大学本科生相当
该研究发表在 《自然·人类行为》杂志上。
但该论文的作者写道,这项研究提出了一个问题:GPT-3 是模仿人类推理,作为其庞大语言训练数据集的副产品,还是正在使用一种全新的认知过程?
如果无法了解 GPT-3 的内部工作原理(由创建它的公司 OpenAI 守护),加州大学洛杉矶分校的科学家无法确定其推理能力是如何工作的。他们还写道,尽管 GPT-3 在某些推理任务上的表现远好于他们的预期,但这种流行的人工智能工具在其他任务上仍然表现不佳。
“无论我们的结果多么令人印象深刻,重要的是要强调这个系统有很大的局限性,”加州大学洛杉矶分校心理学博士后研究员、该研究的第一作者泰勒·韦伯(Taylor Webb)说。
“它可以进行类比推理,但它不能做对人们来说非常容易的事情,例如使用工具来解决物理任务。当我们给它提出这类问题时——其中一些问题是孩子们可以很快解决的——它所建议的事情是毫无意义的。”
Webb 和他的同事测试了 GPT-3 解决一系列问题的能力,其灵感来自于一项名为 Raven 渐进矩阵的测试,该测试要求受试者以复杂的形状排列来预测下一张图像。
为了使 GPT-3 能够“看到”这些形状,Webb 将图像转换为 GPT-3 可以处理的文本格式;这种方法还保证人工智能以前永远不会遇到这些问题。
研究人员要求 40 名 UCLA 本科生解决同样的问题。
该研究的资深作者、加州大学洛杉矶分校心理学教授 Hongjing Lu 表示:“令人惊讶的是,GPT-3 不仅表现得与人类一样好,而且还犯了类似的错误。”
GPT-3 正确地解决了 80% 的问题——远高于人类受试者的平均得分(略低于 60%),但远在人类最高得分的范围内。
研究人员还促使 GPT-3 解决一组他们认为从未在互联网上发布过的 SAT 类比问题,这意味着这些问题不太可能成为 GPT-3 训练数据的一部分。
这些问题要求用户选择具有相同类型关系的单词对。(例如,在“‘爱’与‘恨’之间的关系就像‘富’对哪个词的关系一样?”这个问题中,解决方案将是“穷”。)
他们将 GPT-3 的分数与已公布的大学申请者 SAT 分数结果进行比较,发现人工智能的表现优于人类的平均分数。
然后,研究人员要求 GPT-3 和学生志愿者根据短篇故事解决类比问题,促使他们阅读一篇文章,然后找出传达相同含义的不同故事。尽管 OpenAI 技术的最新版本 GPT-4 的表现比 GPT-3 更好,但该技术在这些问题上的表现不如学生。
加州大学洛杉矶分校的研究人员开发了自己的计算机模型,该模型受到人类认知的启发,并一直将其能力与商业人工智能的能力进行比较。
加州大学洛杉矶分校 (UCLA) 心理学教授基思·霍利奥克 (Keith Holyoak) 表示:“人工智能正在变得越来越好,但我们的心理人工智能模型在处理类比问题方面仍然是最好的,直到去年 12 月泰勒获得了最新升级的 GPT-3,它的表现同样好甚至更好。”该研究的共同作者。
研究人员表示,GPT-3 迄今为止还无法解决需要理解物理空间的问题。例如,如果提供了一组工具的描述——比如纸板管、剪刀和胶带——它可以用来将口香糖球从一个碗转移到另一个碗,GPT-3 就会提出奇怪的解决方案。
“语言学习模型只是尝试进行单词预测,因此我们对它们能够进行推理感到惊讶,”卢说。“在过去的两年里,这项技术比以前有了很大的飞跃。”
加州大学洛杉矶分校的科学家希望探索语言学习模型是否真的开始像人类一样“思考”,或者正在做一些完全不同的事情,只是模仿人类的思维。
“GPT-3 可能会像人类一样思考,”Holyoak 说。“但另一方面,人们并不是通过吸收整个互联网来学习的,因此训练方法完全不同。我们想知道它是否真的按照人们的方式做事,或者它是否是一种全新的东西——真正的人工智能——它本身就令人惊叹。”
为了找到答案,他们需要确定人工智能模型正在使用的底层认知过程,这需要访问软件和用于训练软件的数据,然后进行他们确定软件尚未进行过的测试。给予。他们说,这将是决定人工智能应该成为什么样子的下一步。
Webb 说:“对于人工智能和认知研究人员来说,拥有 GPT 模型的后端将非常有用。” “我们只是进行输入并获得输出,这并不像我们希望的那样具有决定性。”
抽象的
大型语言模型中的紧急类比推理
最近大型语言模型的出现重新引发了关于在足够的训练数据的情况下人类认知能力是否可能出现在此类通用模型中的争论。
特别令人感兴趣的是这些模型无需任何直接训练即可零样本推理新问题的能力。在人类认知中,这种能力与类比推理的能力密切相关。
在这里,我们在一系列类比任务上对人类推理器和大型语言模型(生成预训练 Transformer (GPT)-3 的 text-davinci-003 变体)进行了直接比较,包括基于非视觉矩阵推理任务关于 Raven 标准渐进矩阵的规则结构。
我们发现 GPT-3 在抽象模式归纳方面表现出了惊人的强大能力,在大多数情况下匹配甚至超越了人类的能力;GPT-4 的初步测试表明性能更好。
我们的结果表明,像 GPT-3 这样的大型语言模型已经获得了一种新兴的能力,可以为广泛的类比问题找到零样本解决方案。