从医疗保健到零售业,从娱乐到艺术,人工智能一直是众多领域游戏的改变者。新的, 研究 我们可能已经到了一个转折点:人工智能从人工智能生成的内容学习。
这种蛇--一种吃自己尾巴的蛇--可能会以非常糟糕的结局结束。来自英国不同大学的一个研究小组发布了一个警告,他们称之为"模型崩溃",这是一个退化过程,可能完全将人工智能与现实分开。
在一篇题为"递归的诅咒:对生成数据的培训使模型忘记了"的论文中,剑桥大学和牛津大学、多伦多大学和伦敦帝国学院的研究人员解释说,模型崩溃发生在"生成的数据最终污染了下一代模型的训练集"。"
他们写道:"他们接受了受污染数据的训练,然后错误地认识了现实。"换句话说,在线发布的人工智能产生的广泛内容可能会被吸回人工智能系统,导致扭曲和不准确。
这个问题已经在一系列学习生成模型和工具中找到,包括大型语言模型(LLMS)、变分自动编码器和高斯混合模型。随着时间的推移,模型开始"忘记真实的底层数据分布",导致对现实的不准确描述,因为原始信息变得如此扭曲,以致不再类似于真实数据。
已经有过这样的例子,即机器学习模型接受关于人工智能生成数据的培训。例如,正在有意对语言学习模式进行关于 全球采购点-4的产出 .同样地,Devianart,艺术家的在线平台,允许发布由人工智能创造的艺术作品,并作为更新的人工智能模型的培训数据。
研究人员认为,这些实践很像试图无限期复制或克隆某些东西,可能会导致更多模型崩溃的例子。
鉴于模型崩溃的严重影响,获得原始数据分布是至关重要的。人工智能模型需要 真实的、人类生成的数据 准确地理解和模拟我们的世界。
如何防止模型崩溃
根据研究结果,模型崩溃有两个主要原因.主要的一个是"统计近似误差",它与有限数量的数据样本有关。第二个是"函数近似误差",这是由于人工智能训练期间使用的误差幅度没有正确配置。这些错误可以经过几代人的时间重复发生,造成不准确性恶化的级联效应。
本文阐述了培训人工智能模型的"先行优势"。如果我们能够保持对原始人类生成数据源的访问,我们可能会防止一个有害的分布转移,从而防止模型崩溃。
按比例区分AI生成的内容 是一个艰巨的挑战 然而,这可能需要全社区的协调。归根结底,数据完整性的重要性和人类信息对人工智能的影响只是它所来自的数据一样好,而人工智能生成的内容的爆炸可能最终成为业界的一把双刃剑。它是"垃圾进,垃圾出"--基于AI内容的人工智能将导致许多非常聪明的,但"妄想"的机器。
怎么会是一个讽刺的阴谋?我们的机器后代从彼此身上学到的比从我们身上学到的更多,变成了"妄想症"。"接下来,我们将不得不处理一个妄想症,青少年聊天。