73
AI资讯

微软声称其新工具可以纠正人工智能幻觉,但专家建议谨慎行事

收录于合集


人工智能是出了名的骗子,但微软现在表示已经解决了这个问题。可以理解的是,这会引起一些人的关注——而且有理由持怀疑态度。


微软今天发布了一项服务,名为 Correction,旨在自动修改人工智能生成的错误文本。Correction 首先标记可能存在错误的文本(例如,公司季度收益电话会议摘要中可能存在错误引用),然后通过将文本与事实来源(例如上传的记录)进行比较来核实事实。


Correction 是微软 Azure AI 内容安全 API(目前处于预览阶段)的一部分,可与任何文本生成 AI 模型一起使用,包括 Meta 的Llama和 OpenAI 的GPT-4o。


微软发言人告诉 TechCrunch:“纠正功能由一种新流程提供支持,即利用小型语言模型和大型语言模型将输出与基础文档对齐。我们希望这一新功能能够为医学等领域的生成式人工智能的开发者和用户提供支持,因为应用程序开发人员认为响应的准确性非常重要。”


今年夏天,谷歌在其人工智能开发平台 Vertex AI 中推出了类似的功能,让客户可以使用来自第三方提供商、他们自己的数据集或谷歌搜索的数据来“奠定”模型。


但专家警告称,这些接地方法并不能解决幻觉的根本原因。


“试图消除生成式人工智能中的幻觉就像试图消除水中的氢一样,”华盛顿大学研究新兴技术伦理影响的博士生奥斯·凯斯 (Os Keyes) 表示。“这是技术运作方式的重要组成部分。”


文本生成模型会产生幻觉,因为它们实际上“不知道”任何事情。它们是统计系统,可以识别一系列单词中的模式,并根据训练过的无数示例预测接下来会出现哪些单词。


因此,模型的响应不是答案,而只是对问题 在训练集中出现时将如何 回答的预测。因此,模型往往会对事实不甚了解。一项研究发现,OpenAI 的ChatGPT在回答医疗问题时有一半时间是错误的。


微软的解决方案是一对交叉引用、类似文字编辑的元模型,旨在突出和重写幻觉。


分类器模型会查找 AI 生成的文本中可能不正确、虚构或不相关的片段(幻觉)。如果检测到幻觉,分类器会引入第二个模型(语言模型),该模型会尝试根据指定的“基础文档”纠正幻觉。


微软发言人表示:“纠正可以帮助应用程序开发人员减少用户不满和潜在的声誉风险,从而显著提高人工智能生成内容的可靠性和可信度。”“值得注意的是,基础检测并不能解决‘准确性’问题,但有助于将生成式人工智能输出与基础文档对齐。”


凯斯对此表示怀疑。


“这或许能减少一些问题,”他们说,“但也会产生新的问题。毕竟,Correction 的幻觉检测库也可能会产生幻觉。”


当被问及校正模型的背景时,发言人指出微软研究团队最近发表了一篇论文,描述了该模型的预生产架构。但该论文忽略了关键细节,例如使用哪些数据集来训练模型。


玛丽女王大学 (Queen Mary University) 专门研究人工智能的研究员迈克·库克 (Mike Cook) 认为,即使 Correction 真的像宣传的那样有效,它也有可能加剧人工智能的信任和可解释性问题。该服务可能会发现一些错误,但也可能让用户陷入一种虚假的安全感——认为模型比实际情况更真实。


“微软、OpenAI 和谷歌都造成了这个问题,即在模型经常出错的情况下,人们仍然依赖这些模型,”他说。“微软现在正在做的是在更高层次上重复这个错误。假设这将我们的安全程度从 90% 提高到 99%——问题实际上从来不在那 9% 上。它总是出现在我们尚未检测到的 1% 的错误中。”


库克补充说,微软将 Correction 捆绑在一起的做法也带有商业偏见。该功能本身是免费的,但 Correction 需要检测幻觉才能进行修正的“扎根检测”每月最多只能免费提供 5,000 条“文本记录”。超过 5,000 条文本记录则需要支付 38 美分。


微软确实面临着向客户和股东证明其人工智能值得投资的压力。


仅在第二季度,这家科技巨头就投入了近 190 亿美元的资本支出和设备,其中大部分与人工智能有关。但该公司尚未从人工智能中获得可观的收入。本周,一位华尔街分析师下调了该公司的股票评级,理由是对其长期人工智能战略存在怀疑。


据《The Information》报道,由于性能和成本方面的担忧, 许多早期采用者已经暂停部署微软的旗舰生成式人工智能平台Microsoft 365 Copilot 。据报道,一位使用 Copilot 进行 Microsoft Teams 会议的客户称,该人工智能会虚构与会者 ,并暗示通话内容涉及从未真正讨论过的主题。


毕马威的一项民意调查显示,准确性和产生幻觉的可能性已成为企业在试用人工智能工具时最大的担忧之一。


“如果这是一个正常的产品生命周期,生成式人工智能仍将处于学术研发阶段,并致力于改进它并了解其优缺点,”库克说。“相反,我们已经将它部署到十几个行业。微软和其他公司已经把所有人都装上了他们令人兴奋的新火箭飞船,并决定在前往目的地的途中建造起落架和降落伞。”

75074
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|低价转S舞蹈舞蹈卡
舞蹈课
¥7000
年卡|游泳健身
游泳健身
¥2100
年卡|银行课程转让
银行笔试课程
¥2000
次卡|转让编程课
编程课
¥2000
次卡|音乐大师课
声乐课和主持课
¥6000
年卡|转小说推文视频的课程,包括生成视频的永久会员的软件
新媒体视频课程
¥300
次卡|半价转让70节小班课
小班课
¥2800
年卡|长春top star舞蹈课
爵士舞和街舞
¥2490
年卡|由于本人工作原因,没有精力学习
注册会计师
¥2000
年卡|扇贝编程Python
编程
¥1200