如果你曾经尝试过将 ChatGPT 用作计算器,你几乎肯定会注意到它的计算不良:聊天机器人的数学很糟糕。在这方面,它在 AI 中并不是独一无二的。
Anthropic 的 Claude 无法解决基本的单词问题。Gemini 无法理解二次方程。而 Meta 的 Llama 则难以进行直接添加。
那么,这些机器人怎么能写出独白,却被小学水平的算术绊倒呢?
令牌化与此有关。将数据分成块的过程(例如,将单词 “fantastic” 分解为音节 “fan”、“tas” 和 “tic”),标记化有助于 AI 对信息进行密集编码。但是,由于分词器(进行分词化的 AI 模型)并不真正知道数字是什么,因此它们经常最终会破坏数字之间的关系。例如,分词器可能会将数字 “380” 视为一个标记,但将 “381” 表示为一对数字 (“38” 和 “1”)。
但分词化并不是数学成为 AI 弱点的唯一原因。
AI 系统是统计机器。通过大量示例的训练,他们学习了这些示例中的模式来做出预测(例如电子邮件中的短语“to whom”通常位于短语“it may concern”之前)。例如,给定乘法问题 5,7897 x 1,2832,ChatGPT — 见过很多乘法问题 — 很可能会推断出以 “7” 结尾的数字的乘积,而以 “2” 结尾的数字将以 “4” 结尾。但它会在中间部分挣扎。ChatGPT 给我的答案是 742,021,104;正确的是 742,934,304。
滑铁卢大学专门研究人工智能的助理教授邓云天在今年早些时候的一项研究中对ChatGPT的乘法能力进行了彻底的基准测试。他和合著者发现,默认模型 GPT-4o 难以乘以超过两个每个数字超过四位数的数字(例如,3,459 x 5,284)。
“GPT-4o 在多位数乘法方面苦苦挣扎,超过 4 位数乘以 4 位数的问题的准确率不到 30%,”邓告诉 TechCrunch。“多位数乘法对语言模型来说是一个挑战,因为任何中间步骤中的错误都可能复合,导致最终结果不正确。”
那么,ChatGPT 会永远躲避数学技能吗?或者是否有理由相信机器人有一天会变得像人类(或 TI-84,就此而言)一样精通数字?
邓充满希望。在这项研究中,他和他的同事还测试了 o1,这是 OpenAI 最近出现在 ChatGPT 上的“推理”模型。o1 在回答问题之前会一步一步地“思考”问题,它的表现比 GPT-4o 好得多,大约有一半的时间可以得到 9 位数乘以 9 位数的乘法问题。
“该模型解决问题的方式可能与我们手动解决问题的方式不同,”邓说。“这让我们对模型的内部方法以及它与人类推理有何不同感到好奇。”
邓认为,这一进展表明,至少某些类型的数学问题——乘法问题就是其中之一——最终将被类似ChatGPT的系统“完全解决”。“这是一个定义明确的任务,具有已知的算法,”邓说。“我们已经看到从 GPT-4o 到 o1 的显着改进,因此很明显推理能力正在增强。”
只是不要很快扔掉你的计算器。