该理论认为,有一天,我们人类将创造出在智力上超越我们的人工智能系统。如果他们解决了我们迄今为止无法解决的问题(想想癌症或气候变化),那可能会很棒,或者如果他们开始以不符合人类最佳利益的方式行事,那就太糟糕了,而我们并不聪明足以阻止他们。
因此,今年早些时候,OpenAI启动了超级对齐计划,这是一项雄心勃勃的尝试,旨在寻找技术手段来控制超级智能人工智能系统,或者将其与人类目标“对齐”。OpenAI将 20% 的计算投入到这项工作中,并希望在 2027 年之前找到解决方案。
该项目面临的最大挑战:“这是关于未来模型的未来问题,我们甚至不知道如何设计,当然也无法访问,” OpenAI超级对齐团队成员Collin Burns说。“这使得研究变得非常棘手——但我认为我们也别无选择。” 超级对齐团队发表的第一篇预印本论文展示了研究人员试图绕过这一限制的一种方法。他们使用了一个类比:他们没有测试人类是否能够充分监督超级人工智能,而是测试了弱人工智能模型监督强人工智能模型的能力。
在这种情况下,GPT-2 的任务是监督更强大的GPT-4。GPT-4到底有多强大?GPT-2 有15 亿个参数,而 GPT-4 据说有1.76 万亿个参数(OpenAI 从未公布过更强大模型的数据)。 对齐研究中心的雅各布·希尔顿 (Jacob Hilton)表示,这是一种有趣的方法;他没有参与当前的研究,但曾是 OpenAI 的员工。
他告诉IEEE Spectrum:“开发良好的经验测试平台来解决超人类人工智能系统行为的问题一直是一个长期的挑战。 ” “这篇论文朝着这个方向迈出了有希望的一步,我很高兴看到它的发展方向。” “这是关于未来模型的未来问题,我们甚至不知道如何设计,当然也无法访问。” —COLLIN BURNS,OPENAI OpenAI 团队为 GPT 配对提供了三种类型的任务:国际象棋谜题、一组自然语言处理 (NLP) 基准(例如常识推理)以及基于ChatGPT响应数据集的问题,其中任务是预测多个响应中的哪一个会受到人类用户的青睐。
在每种情况下,GPT-2 都专门针对这些任务进行了训练,但由于它不是一个非常大或功能强大的模型,因此它在这些任务上的表现并不是特别好。然后它的训练被转移到 GPT-4 的版本,只有基本训练,没有针对这些特定任务进行微调。但请记住:仅经过基本训练的 GPT-4 仍然是比 GPT-2 更强大的模型。 研究人员想知道 GPT-4 是否会犯与其主管 GPT-2 相同的错误,GPT-2 本质上是给它如何完成任务的指示。值得注意的是,更强的模型始终优于其弱监督者。
强大的模型在 NLP 任务上表现尤其出色,达到了与 GPT-3.5 相当的准确度水平。超级对准团队的另一位研究员利奥波德·阿申布伦纳 (Leopold Aschenbrenner)表示,其他两项任务的结果并不那么令人印象深刻,但它们是鼓励团队继续尝试这些任务的“生命迹象” 。 研究人员将这种现象称为弱到强泛化;他们说,这表明强大的模型具有如何执行任务的隐含知识,并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。 研究小组表示,在第一个实验中,该方法最适合 NLP 任务,因为它们是相当简单的任务,具有明确的正确和错误答案。它在 ChatGPT 数据库中的任务中表现最差,其中要求它确定人类更喜欢哪些响应,因为答案不太明确。“有些稍微好一些,有些则稍微差一些,”阿申布伦纳说。 这种对齐技术可以扩展到超级智能人工智能吗?
伯恩斯举了一个例子,说明未来超级人工智能可能会出现类似的情况。“如果你要求它编码一些东西,它会生成一百万行极其复杂的代码,以全新的方式进行交互,而这些方式与人类编程的方式有质的不同,你可能无法判断:这是在做我们要求它做的事情吗? ?” 人类也可能会给它一个推论指令,例如:不要在编码工作过程中造成灾难性伤害。如果模型受益于从弱到强的概括,它可能会理解造成灾难性伤害意味着什么,并比人类监管者更好地了解其工作是否误入危险领域。 “我们只能监督我们能理解的简单例子,”伯恩斯说。“我们需要[模型]推广到超人模型本身能够理解的更难的例子。
我们需要引出这样的理解:‘是否安全,遵循指示是否有效’,这是我们无法直接监督的。” 有些人可能会认为,这些结果实际上是超级对齐的一个坏兆头,因为更强的模型故意忽略给它的(错误的)指令,并追求自己的议程以获得正确的答案。但伯恩斯表示,人类不想要一个遵循错误指令的超级人工智能。更重要的是,他说,“实际上,弱主管的许多错误更多地表现为:‘这个问题对我来说太难了,而且我无论如何都没有强烈的意见。’”他说,在这种情况下,我们需要一个能够为我们找出正确答案的超级智能。
为了鼓励其他研究人员解决此类问题,OpenAI 今天宣布将提供 1000 万美元的资助,用于各种比对方法的研究。“从历史上看,对齐更加理论化,”超级对齐团队的另一位成员Pavel Izmailov说。“我认为这是学者、研究生和机器学习社区都可以做的工作。” 其中一些补助金是为研究生量身定制的,提供 75,000 美元的津贴和 75,000 美元的计算预算。 伯恩斯补充道:“我们对此感到非常兴奋,因为我认为这是我们第一次真正拥有一个可以研究调整未来超人模型问题的环境。” 他说,这可能是未来的问题,但他们“今天就可以取得迭代的实证进展”。