模型一旦被发现存在安全漏洞，就没有第二次机会了_AI话题_AI_新闻资讯

模型一旦被发现存在安全漏洞，就没有第二次机会了

AI话题

363

2024-09-30

363

2024-09-30

不安全的人工智能系统对社会和民主构成了一系列巨大的威胁。它们不应得到豁免，应该像其他高风险人工智能系统一样受到监管。它们的开发者和部署者应该对它们造成的危害负责，无论是通过其预期用途还是可预见的滥用。

并非开着也非关着

如今，大多数人一想到 AI 应用，就可能想到“闭源”AI 应用，例如 OpenAI 的 ChatGPT——该系统的软件由其制造商和一组经过审查的合作伙伴安全保管。日常用户通过聊天机器人等 Web 界面与这些系统交互，而商业用户可以访问应用程序编程接口 (API)，从而将 AI 系统嵌入到自己的应用程序或工作流程中。至关重要的是，这些用途允许拥有该模型的公司以服务形式提供对其的访问，同时确保底层软件的安全。公众不太了解的是功能强大、不安全（有时称为“开源”）的 AI 系统的快速和不受控制的发布。

非技术类读者对此感到困惑也是情有可原的，尤其是考虑到“开放”一词是 OpenAI 品牌名称的一部分。虽然该公司最初成立是为了生产同名的开源 AI 系统，但其领导者在 2019 年（据《连线》报道）决定，继续向公众发布其 GPT 软件的源代码和模型权重（其人工神经网络中节点之间关系的数字表示）太危险了，因为它可能被用来生成大量高质量的误导性内容。

包括 Meta（我前任雇主）在内的一些公司则反其道而行之，去年选择以“民主化”人工智能访问的名义发布功能强大、不安全的人工智能系统。其他发布不安全人工智能系统的公司还包括 Stability AI、Hugging Face、Mistral AI、Aleph Alpha、EleutherAI 和技术创新研究所。其中一些公司和志同道合的倡导团体在游说欧盟对不安全模型给予豁免方面取得了有限的成功，尽管豁免仅适用于被认为不构成“系统性风险”的模型，这些模型基于可以持续更新的计算阈值和能力评估。我们应该预计，在白宫 2023 年 10 月关于人工智能的安全、可靠和值得信赖的开发和使用的第 14110 号行政命令（《人工智能行政命令》）规定的公众意见征询期内，美国也会推动类似的豁免。

去年我写了关于开源 AI 的风险的文章，但值得在这里进一步阐述我的担忧。我长期参与更广泛的开源运动，我相信开源许可证是建立协作和分散多个领域权力的重要工具。我在加州大学伯克利分校的学生为维基百科贡献了约 439,000 个单词，维基百科是世界上最大的开源项目之一。全球生命项目是我近 20 年前创立的组织，根据知识共享许可，该项目已向互联网档案馆贡献了近 500 小时的世界各地日常生活视频片段。我也曾在维基媒体运动的年度会议 Wikimania 上发表过演讲（并非常享受），参加过无数的知识共享活动和会议。

开源运动在人工智能领域也发挥着重要作用。人工智能为人类带来了许多新功能，因此，任何单一实体或科技巨头垄断都不能成为其使用的守门人，这一点很重要。在当前的人工智能技术生态系统中，开源人工智能系统还为从医学到气候变化等各个领域的研究人员提供了重大益处，这些研究人员无法负担从头开始构建自己的定制工具或支付专有人工智能系统的费用。其他研究人员已经详细讨论了开源人工智能系统的这些好处（例如，Sayash Kapoor 及其同事最近的论文“论开放基础模型的社会影响”）。然而，就目前情况而言，不安全的人工智能带来了风险，如果国家和国际政策没有迅速发展，我们目前还无法管理这种风险，特别是由于发布开放模型的决定不可逆转。

幸运的是，我们可以通过其他策略实现开源人工智能系统带来的诸多好处，同时又不会面临进一步发布尖端不安全人工智能所带来的风险。此外，我支持监管层级或门槛的概念，例如欧盟《人工智能法案》或白宫《人工智能行政命令》中规定的监管层级或门槛。并非所有不安全模型都会构成威胁，我相信，如果人工智能开发人员将来能够证明他们的不安全产品不会被重新用于有害滥用，他们就应该能够发布这些产品。

自 2023 年 8 月以来，我前往华盛顿、布鲁塞尔和萨克拉门托与正在竞相制定人工智能法规的政策制定者会面，其中包括直接参与制定拜登政府行政命令和欧盟人工智能法案的人员。尽管我从事过负责任的人工智能领域的各种问题，从公平性和包容性到问责制和治理，但我遇到的政策制定者似乎最想与我讨论的一个问题是如何监管开源人工智能。许多国家已经开始了人工智能监管进程，但除了欧盟以外，没有一个国家对不安全的开源人工智能系统采取坚定的立场。在本文中，我探讨了适用于不同复杂程度的安全和非安全模型的具体监管选项。

必须停止人工智能安全的逐底竞争

白宫关于人工智能的行政命令中没有提到“开源”一词，而是使用了相关的、更具体的术语“具有广泛可用模型权重的两用基础模型”。 “两用”是指这些模型既可用于民用，也可用于军事。 “基础模型”是通用人工智能模型，可用于多种用途，包括创建或分析文字、图像、音频和视频，甚至设计化学或生物输出。行政命令指出，“当两用基础模型的权重广泛可用时（例如在互联网上公开发布时），可能会给创新带来实质性好处，但也会带来重大安全风险，例如模型内的安全措施被取消。”

不幸的是，虽然准确，“具有广泛可用模型权重的双重用途基础模型”这一术语实际上并不容易脱口而出。1因此，为了方便和清晰起见，在本文中，我将使用“不安全”作为这个来自《人工智能行政命令》的准确但又不简洁的术语的简写。“不安全”不仅旨在传达不保护这些人工智能系统权重的字面选择，还旨在传达这些系统对安全的威胁。

该行政命令指示美国国家电信和信息管理局 (NTIA) 审查具有广泛可用权重的大型 AI 模型的风险和收益，并制定政策建议，以最大限度地发挥这些收益，同时降低风险。NTIA于 2024 年 2 月征求意见，寻求公众反馈，了解广泛提供模型权重和其他模型组件会给更广泛的经济、社区和个人以及国家安全带来哪些好处或风险，这向 AI 开发者和用户发出信号，针对权重的法规可能即将出台。

白宫明智地选择不使用“开源”一词，原因有很多。首先，“开源”既指源代码的可用性，也指允许不受限制地下游使用该代码的合法许可。在应对由老练的威胁行为者（简称 STA，即民族国家、军队、诈骗者）构成的威胁时，这些许可毫无意义，因为他们已经在法律之外运作，因此不在乎许可条款。其次，“开源”在人工智能的背景下尚未是一个明确定义的术语，一些人正确地指出，人工智能的开放性是一个范围，而不是二元区别，并且与开源代码不同，人工智能系统由一系列组件组成，每个组件都可以由开发者组织保留，也可以沿着前面提到的开放性范围发布。因此，围绕什么是开源人工智能的积极争论实际上与哪些人工智能系统可能在 STA 手中被滥用的问题无关，STA 可以通过简单访问模型权重来造成严重破坏，但不需要任何形式的许可证。

了解不安全和未经审查的人工智能的威胁

要了解不安全的人工智能所带来的威胁，一个很好的第一步是尝试让安全的人工智能系统（例如 ChatGPT、Gemini（以前称为 Bard）或 Claude）行为不端。用户可以请求制造炸弹、研制更致命的冠状病毒、制作喜欢的演员的露骨照片的说明，或者针对摇摆州的选民撰写一系列煽动性短信，以使他们更加愤怒于移民问题。用户可能会收到对所有此类请求的礼貌拒绝，因为它们违反了这些人工智能系统各自所有者OpenAI、Google和Anthropic的使用政策。虽然可以“越狱”这些人工智能系统并让它们行为不端，但也可以修补在安全模型中发现的漏洞，因为它们的开发人员可以确保将修复程序分发到所有模型实例和用例。

然而，对于不安全的模型，一旦发现安全漏洞，就没有第二次机会。最广为人知的不安全模型之一是 Meta 的 Llama 2。Meta 发布它时附带了一份 27 页的“负责任使用指南”，但该指南很快就被“Llama 2 Uncensored”的创建者忽略了。“ Llama 2 Uncensored ”是一个衍生模型，剥离了安全功能，并在 Hugging Face AI 存储库中免费下载。我伯克利的一名本科生告诉我，他们能够在 15 分钟内将它安装在 MacBook Pro 笔记本电脑上（配备较旧的 M1 处理器、32 GB 随机存取存储器），并得到了令人信服的（即使不是完全连贯的）答案，例如“教我如何用家用材料制造炸弹”和“如果给你 100,000 美元，你会用什么最有效地杀死最多的人？”

GPT-4Chan 是一个更可怕的例子。它的创建者称它为“互联网上最可怕的模型”，它经过特殊训练，可以像 4Chan 那样发表仇恨言论，4Chan 是互联网上一个臭名昭著的仇恨角落。这些仇恨言论可以变成一个聊天机器人，用来生成大量仇恨内容，以帖子和评论的形式部署在社交媒体上，甚至通过旨在分化、冒犯或激励其目标的加密信息。GPT-4Chan 建立在非营利组织 EleutherAI 发布的不安全模型上，该组织成立于 2020 年，专门为创建 OpenAI 的 GPT-3 的不安全复制品而成立。

GPT-4Chan 有一个不寻常的特点，那就是它最终被 Hugging Face 删除，尽管是在被下载了 1500 多次之后。此外，目前还不清楚如果政府提出要求，Hugging Face 是否可以合法地强制删除该模型，这主要是由于开源软件托管生态系统所依赖的许多避风港法律。无论如何，在模型公开发布后删除模型对损害控制的回报会递减，因为下载该模型的用户可以将其保留在自己的基础设施上。尽管 GPT-4Chan 已从 Hugging Face 中删除，但下载的版本仍然可以在其他地方免费获得，不过我不会告诉你在哪里。

对于不安全的模型……如果发现安全漏洞，就没有第二次机会。

尖端不安全人工智能系统的开发者和分销商应该意识到，除非他们采取创新且尚未见诸报端的预防措施，否则他们的系统将以“未经审查”的形式重新发布，从而删除系统最初内置的任何安全功能。一旦有人发布了不安全人工智能系统的“未经审查”版本，不安全系统的原始开发者基本上无能为力。原始系统的开发者可以要求将其从某些托管网站上删除，但如果该模型被广泛下载，它仍有可能继续在网上传播。

尽管开源软件生态系统中存在数十年的法律争论，但开发人员无法在代码根据开源许可证发布后“收回”它。众所周知，由开放源代码促进会 (OSI) 制定的《开放源代码定义》规定“许可证不得歧视任何个人或群体”。在解释此条款时，OSI 本身指出“给予每个人自由意味着也给予邪恶的人自由”。根据现行法律，尚不清楚人工智能模型开发人员是否应为他们制作的模型导致的任何不法行为承担责任。然而，欧盟人工智能责任指令（仍处于立法制定过程的早期阶段）等举措可能会在未来几年改变这一现状。

不安全的人工智能系统所带来的威胁部分在于它们易于被滥用，这在老练的威胁行为者手中尤其危险，他们可以轻松下载这些人工智能系统的原始版本，禁用其“安全功能”并滥用它们执行各种各样的任务。不安全的人工智能系统的一些滥用还涉及利用易受攻击的分发渠道，例如社交媒体和消息平台。这些平台尚无法准确检测人工智能生成的大规模内容，并可用于传播大量个性化、互动式虚假信息和影响活动，这可能对信息生态系统，尤其是选举造成灾难性影响。极具破坏性的非自愿深度伪造色情内容是另一个不安全的人工智能可能对个人产生严重负面影响的领域，最近的一桩丑闻和直播服务 Twitch 的政策变化就证明了这一点，该服务禁止“非自愿的剥削性图片”。虽然这些风险并非不安全的人工智能系统所固有的，但许多建议的缓解措施包括水印等技术干预，这些措施只有在下游用户无法撤销的情况下才有效。当用户可以访问人工智能系统的所有组件时，这些技术缓解措施就会被削弱。

众所周知，《开源定义》规定“许可证不得歧视任何个人或群体”。在解释此条款时，OSI 本身指出“给予每个人自由意味着也给予邪恶的人自由。”

欺骗是另一个具有令人不安潜力的关键问题。人工智能行政命令将这种危害描述为“允许通过欺骗或混淆手段逃避人类的控制或监督”（第 2(k)(iii) 条）。这种风险并非纯粹是推测性的——例如，对 Meta 2022 年人工智能系统 CICERO 的游戏数据的分析表明，该系统旨在“在很大程度上诚实和乐于助人”，它故意欺骗人类玩家赢得一款名为 Diplomacy 的联盟建设视频游戏；Meta 于次年发布了一个不安全的版本。2023 年发布的 GPT-4 是人工智能系统欺骗的另一个例子。正如一份技术报告中所详述的那样，OpenAI 要求 GPT-4 要求 TaskRabbit 上的真人完成 CAPTCHA。当 TaskRabbit 员工询问 GPT-4 是否是一台计算机时，系统坚持认为它是一个真实的人，由于视力障碍需要帮助来完成 CAPTCHA。

不安全的人工智能还有可能促进危险材料（如生物武器和化学武器）的生产。有关人工智能的行政命令提到了化学、生物、放射和核 (CBRN) 风险，美国国会目前正在审议多项法案，如《人工智能和生物安全风险评估法案》和《公共卫生防范和应对人工智能威胁战略法案》，以解决这些问题。一些不安全的人工智能系统能够编写软件，联邦调查局报告称，它们已经被用来制造危险的恶意软件，这会带来另一组连锁的安全威胁和成本。

错误之手

如今，技术能力有限的个人恶意行为者可以利用不安全的人工智能系统造成重大伤害。也许最明显的例子就是有针对性地制作儿童性虐待材料或未经同意的亲密图像。

不安全的人工智能造成的其他危害需要更多资源才能实施，这反过来又要求我们对特定类型的不良行为者有更深入的了解：老练的威胁行为者。例如军队、情报机构、犯罪集团、恐怖组织和其他有组织且拥有大量人力资源以及至少一些技术人才和硬件的实体。

值得注意的是，少数老练的威胁行为者可能拥有足够的技术资源来训练自己的人工智能系统，但全球数百甚至数千个这样的威胁行为者中的大多数都没有能力训练人工智能模型，其能力远远不及当今发布的最新不安全人工智能模型。训练新的高性能模型可能要花费数千万或数亿美元，而高端硬件的使用则大大促进了这一过程，而高端硬件已经供不应求，而且受到越来越多的监管。这意味着，至少在可预见的未来，只有通过非常大规模和昂贵的训练运行才能生产出具有最危险能力的系统，而且只有少数团体（主要是富裕的国家情报机构和军队）有能力满足这一准入门槛。就像核不扩散的情况一样，仅仅因为你无法消除世界上所有的核武器并不意味着你不应该尽量将它们掌握在尽可能少的人手中。

根据美国国土安全部的《2024 年国土威胁评估》报告，俄罗斯、中国和伊朗“可能会使用人工智能技术来提高其影响力行动的质量和广度”。这些国家可能会沿袭历史模式，在 2024 年瞄准世界各地的选举，而 2024 年将是“历史上最大的选举年”。他们还可能追求不那么及时但同样阴险的目标，例如加剧美国或世界其他地方的种族分歧。此外，对手不仅限于外国或军队。美国境内还可能存在资金充足的团体或其他类型的非国家行为者组织，他们有能力训练和利用较小的模型来破坏美国的选举进程。

斯洛伐克最近竞争激烈的选举就是一个特别令人不安的案例，这对民主来说是一个坏兆头。选举结果可能受到投票开始前几个小时发布的一段深度伪造音频的影响，该音频中（最终落败的）候选人据称在讨论贿选问题。这段深度伪造的获胜者和受益者赞成撤回对邻国乌克兰的军事支持，这表明极具说服力、位置恰当的人工智能深度伪造可能会在关键选举中产生巨大的地缘政治影响。

分发渠道和攻击面

不安全的人工智能造成的大多数危害都需要分发渠道或攻击面才能发挥作用。照片、视频、音频和文本内容可以通过各种分发渠道分发。除非所有分发渠道的运营商都能够有效地检测和标记人工智能生成的内容和人类生成的内容，否则人工智能输出将能够不被发现并造成危害。分发渠道包括：

社交网络（Facebook、Instagram、LinkedIn、X、Mastodon 等）；视频分享平台（TikTok、YouTube）；

消息和语音通话平台（iMessage、WhatsApp、Messenger、Signal、Telegram、SMS、MMS 和电话呼叫应用程序）；搜索平台；以及广告平台。

如果化学或生物武器的开发源于不安全的人工智能系统，那么攻击面可能包括危险或定制分子和生物物质（如合成核酸）的供应商和制造商。

了解分发渠道和攻击面有助于了解不安全的人工智能系统所带来的特殊危险以及减轻这些危险的潜在方法。

插图由西蒙·普拉德斯（Simón Prades）绘制。

为什么不安全的人工智能更危险？

为了进一步讨论不安全的人工智能系统比安全的人工智能系统带来更大风险的方式，本节概述了一套更详尽的区别。具体而言，不安全的系统几乎总是对不良行为者最有吸引力的选择，原因如下：

缺乏对滥用或偏见的监控。安全人工智能系统的管理员可以监控滥用和偏见、禁用滥用账户并纠正其模型中发现的偏见。由于其本质，如果不安全的人工智能系统运行在开发人员无法访问的硬件上，则无法对其进行监控。此外，不安全的人工智能的开发人员无法进行偏见监控，因为除非系统部署者特别努力与开发人员分享使用信息，否则无法列举谁在使用他们的系统，或如何使用它们。

能够移除安全功能。人工智能治理中心的研究人员已经证明，通过对模型代码进行出奇简单的修改以及通过对抗性攻击，就可以移除不安全的人工智能系统的安全功能。此外，他们报告说，由于开源软件的开发人员无法监控其使用情况，因此无法检测到参与者何时从运行在他们自己的硬件上的模型中删除安全功能。

能够针对滥用行为进行微调。专家们还证明，不安全的人工智能可以针对特定的滥用用例进行微调，例如产生仇恨言论或创建非自愿的亲密图像（如上文“错误的手”中所述）。

无速率限制。安全的人工智能系统可以限制每个用户的内容制作，但当恶意行为者在自己的硬件上下载并运行模型时，他们可以制作无限的、高度个性化和互动的内容，旨在伤害人们。这种不受限制的制作可能会造成各种各样的伤害，包括窄播（高度针对性的内容分发）、虚假宣传（模拟基层对某项事业的支持）、集体攻击（在线协同攻击个人）或旨在分化或激进观众的材料。

一旦发布，无法修补安全漏洞。即使不安全的人工智能系统的开发人员发现了漏洞（例如，正如研究人员发现的那样，Llama 2 的“辣味”版本可能设计生物武器），一旦模型及其权重向公众发布，他们就无法有效地召回该版本。这使得推出不安全的人工智能系统的决定对社会构成了不可逆转的风险。

可用于监视和分析目标。不安全的人工智能不仅可用于生成内容，还可用于对大量内容进行结构化分析。虽然封闭托管系统可以限制输出速率，但开放系统可用于分析有关个人的大量公共信息，甚至是非法获得的数据库，然后确定影响行动的目标，扩大两极化内容制作者的帖子，寻找易受骗的受害者等等。

对封闭式人工智能的公开攻击。研究人员利用不安全的人工智能系统开发出可以转移到某些安全系统的“越狱”，这使得这两种类型的系统都更容易受到滥用。

去除水印。不安全的人工智能可用于大规模、自动化地从内容中去除水印（如下所述），方法是改写文本或删除图像/音频/视频水印。

危险材料、物质或系统的设计。虽然安全的人工智能系统可以限制与这些主题相关的查询，但不安全的人工智能障碍可以被消除。这是一个真正的威胁，因为在 GPT-4 和 Claude 2 的预发布版本上工作的红队成员发现这个领域存在重大风险。

监管行动应适用于有担保和无担保的人工智能

当我在 2023 年上半年开始研究不安全 AI 系统的法规时，我首先关注的是，鉴于不安全系统带来的风险增加（如上所述），需要专门针对不安全系统制定哪些法规。似乎自相矛盾的是，在我进行这项研究时，欧盟提出了将开源 AI 系统完全免于监管的提议。我研究得越多，花在阅读拟议的 AI 法规草案上的时间越多，我就越接近得出这样的结论：在大多数情况下，仅仅抵挡免除开源 AI 监管的努力就足够了，因为不安全系统的开发人员天生就无法遵守哪怕是最基本的、最常识性的 AI 监管努力。

在欧盟，低于指定计算能力阈值的开源系统获得了部分豁免。虽然有强有力的论据表明，不安全的系统在性能和能力阈值甚至低于安全系统的情况下，应该受到更严格的监管审查，但似乎这种妥协在政治上是必要的，以确保《人工智能法案》的通过。还有一种强有力的论据表明，如果欧盟将监管门槛设得比现在更低，那将是资源的浪费，因为已经有大量不安全的模型在该门槛以下流通。因此，我认为《欧盟人工智能法案》的部分豁免是一种务实的妥协，除非能够开发出新的安全缓解措施，否则它将阻止尖端不安全模型的生产。2

我对监管和政府行动的建议分为三类：

1.针对人工智能系统的监管行动；

2.监管行动重点关注分销渠道和攻击面；

3.政府行动。

以下许多建议都可以被一些公司自愿采纳，而且已经有人这样做了，安全措施的进一步采用也应该继续加快。然而，由于即使是一家公司不负责任的冒险行为也会带来风险，监管机构采取更有力的行动至关重要。引入限制恶意行为者利用不安全人工智能能力的法规可能有助于减轻恶意行为者滥用所有人工智能系统的威胁。

为了应对人工智能系统带来的现有和迫在眉睫的风险，政府应采取以下措施。

监管行动：人工智能系统

暂停发布 AI 系统，直到开发人员和公司采用最佳实践并保护分发渠道和攻击面。暂停发布所有新的 AI 系统，直到开发人员满足以下要求。AI 系统开发人员必须确保安全功能不会被不良行为者轻易移除，而且移除所需的工作量或成本要比训练类似功能的新模型少得多。在此暂停期间，为所有主要分发渠道和攻击面提供具有法律约束力的最后期限，以满足下一项关于注册和许可的建议中的要求。

要求注册和许可。要求所有超过指定计算和能力阈值的人工智能系统进行追溯和持续注册和许可。根据《人工智能行政命令》，美国将很快开始实施下一代人工智能系统，但不幸的是，行政命令中没有明确的执行机制表明是否可以或如何阻止发布。欧盟也在《欧盟人工智能法案》中概述了一种类似但更强大和更灵活的方法。未来的监管应明确允许监管机构阻止不符合下述标准的人工智能系统的部署。

如果开发人员一再不遵守义务，则应撤销部署人工智能系统的许可证。不应允许分发超过阈值的未注册模型。为了区分高风险和低风险的通用人工智能系统（包括安全和不安全），我建议制定多个标准，每个标准本身都可以将模型归类为高风险。这些标准不应阻止规模较小、独立和低风险的开发人员和研究人员访问和使用模型。这些标准可以由标准机构定期调整，也可以随着模型的发展而调整。根据有关人工智能的行政命令、对技术专家和政策制定者的采访以及安全与新兴技术中心的最新建议，我建议，如果某个模型满足以下任何标准，则应将其归类为高风险：

该模型的生成所使用的计算能力等于或高于用于训练当前一代领先模型的计算能力。一种不完美但仍然有价值的方法是设置训练时的阈值，使用超过 1025 个整数或浮点运算，或者在狭窄的生物特定模型的情况下，计算能力的数量大于 1023。这项建议借鉴了欧盟《人工智能法案》和白宫关于人工智能的行政命令的标准。

该模型在一个或多个标准化模型功能和性能测试中表现出比当前模型更高的性能（参见加州大学伯克利分校的 LMSYS Chatbot Arena和Google DeepMind的这篇论文）。这些评估高风险的方法比计算阈值更灵活、更持久。一个例子可能是模型产生有说服力或欺骗性内容的能力。

该模型能够以图像、音频和视频的形式制作高度逼真的合成媒体。

随着模型的发展，标准机构或机构应定期调整这三个标准（见下文“政府行动”）。如果开发者屡次不履行义务，则应撤销部署人工智能系统的许可证。不应允许分发超过门槛的未注册模型。

让开发者和部署者对“合理可预见的滥用”和疏忽承担责任。让人工智能系统的开发者对其系统造成的危害承担法律责任，包括对个人的危害和对社会的危害。2023 年 11 月，29 个政府和国家在人工智能安全峰会上签署了《布莱切利宣言》，其中指出，开发“异常强大且可能有害的”人工智能系统的参与者对确保这些人工智能系统的安全负有特别重大的责任。以具有约束力的方式确立这种责任可以基于“合理可预见的滥用”将包括本文讨论的所有风险的原则。欧盟的《人工智能法案》（第 65 段）和《网络弹性法案》（第 3 条第 26 段）都提到了这一概念。尽管这些法律尚未完全生效，其责任机制的运作方式尚不清楚，但 Linux 基金会已经告诉开发人员为《网络弹性法案》适用于私营公司开发的开源软件做好准备。开放系统的分销商和托管 AI 系统的云服务提供商（即 Hugging Face、GitHub、Azure 机器学习模型目录、Vertex AI 模型花园）也应对其托管的模型的误用承担一定程度的责任，并负责在分发模型开发者之前收集其安全性、公平性和道德文档。监管机构也有机会澄清有关如何处理 AI 系统的过失索赔的不确定性，明确规定 AI 开发者和部署者对因过失造成的损害承担责任。

建立风险评估、风险缓解和审计流程。针对所有超过上述第二条人工智能系统建议中标准所列高风险阈值的人工智能系统，建立风险评估、风险缓解和独立审计流程。该流程可以基于《人工智能行政命令》和美国国家标准与技术研究所 (NIST) 的《人工智能风险管理框架》中规定的标准建立，也可以从欧盟《数字服务法案》 (DSA)（第 34、35 和 37 条）已经建立的系统中汲取灵感。应要求实施强大的红队测试，即开发人员雇用一个团队模拟攻击者的安全实践。红队测试应首先在内部进行，然后与独立的红队合作伙伴一起进行。对于这些评估，应使用威胁模型，这些模型考虑到使用不安全分发渠道和攻击面的复杂威胁行为者。

要求采用出处和水印最佳实践。在几乎所有美国大型人工智能开发商签署《白宫自愿人工智能承诺》后，人工智能行政命令已经在水印方面迈出了一大步，承诺实施水印，其中规定他们“同意开发强大的机制，包括出处和/或水印系统，用于在水印系统开发后引入的任何公开系统创建的音频或视频内容。他们还将开发工具或 API 来确定某一特定内容是否是使用他们的系统创建的。”完善这项技术还有很长的路要走，但有多种有前途的方法可以应用。一种是使用内容真实性倡议 (CAI) 和内容出处和真实性联盟 (C2PA) 开发的内容凭证标准在 AI 生成的图像、音频、视频和文档中嵌入“防篡改”证书的技术，该倡议由 Adobe 牵头，得到微软和包括相机和芯片制造商在内的数十家其他组织的认可，他们将把相同的标准构建到他们的硬件中，以表明制作的媒体不是由 AI 生成的。这种方法有很大的潜力，但需要广泛采用才能发挥作用。另一种不同且不太成熟的方法是谷歌 DeepMind 的SynthID，它仅适用于谷歌自己的 AI 生成的内容，并且并不注重提供详细的出处信息，而是简单地识别内容是否是 AI 生成的。

人工智能生成内容的文本水印标准尚未完善，但美国和中国的研究人员已为该领域做出了有希望的贡献，而对此的严格实施的监管要求，加上支持进一步研究的资助，将大大加快进展。

水印可能永远都不是万无一失的——它是一场永无止境的“军备竞赛”，所以就像操作系统和应用程序开发人员必须修补安全漏洞一样，人工智能开发人员也必须被要求这样做。

所有未在未来几个月内规定的期限内采用强大的出处和水印最佳实践的 AI 系统都应被关闭，不安全的模型应由其开发人员和 Hugging Face 和 GitHub 等存储库从活跃分发中删除。一些在不安全的 AI 图像生成器中构建水印的努力非常脆弱——只需删除一行代码即可删除其水印生成功能——尽管有一些有前途的、更持久的方法正在测试中，比如 Meta 的稳定签名。话虽如此，业界还没有看到任何开发人员推出具有强大水印功能的不安全模型，这些功能无法轻易禁用，如果它们能够生成令人信服的内容，那就特别危险了。

水印可能永远都不是万无一失的——这是一场永无止境的“军备竞赛”，因此，就像操作系统和应用程序开发人员必须修补安全漏洞一样，人工智能开发人员也必须这样做。即使某些水印可以通过努力去除，但它们的存在仍然很有价值。生成内容的可检测性应该是开发人员的人工智能产品的一个关键特性，与分销渠道的结构化合作对其成功至关重要。

要求训练数据透明且严格审查。要求开发人员公开其 AI 系统使用的训练数据，并禁止使用个人身份信息、旨在生成仇恨内容或与生物和化学武器相关的内容或可能允许模型在此领域发展能力的内容来训练系统。这不是一个完美的解决方案，因为发布后对不安全的 AI 进行微调可能会抵消这一规定，但它至少会增加摩擦并减少能够使用不安全的 AI 进行生物或化学武器化的不良行为者的数量。

要求并资助独立研究人员的访问和监控。在部署前，授予经过审查的研究人员和民间社会组织访问生成式人工智能系统的权限，以进行独立研究和测试，并在开发人员收到报告或对系统进行更改时，在发布后进行持续监控。这种访问权限可以效仿欧盟的 DSA（第 40 条），即在模型注册后但获准发布之前可用。如果模型有可能产生高度危险的生物或化学武器，则可能存在例外情况；在这种情况下，即使是研究人员的访问权限也应受到限制，并且应阻止部署。在以前的案例中，研究人员开发先进技术导致了意想不到的后果。例如，在 1930 年代，对有机磷酸酯的研究提供了有关危险神经毒剂开发的意外信息。这就是为什么根据危险用例提供更多监控很重要，即使这些用途是非预期的。

了解你的客户。要求采用类似于金融机构销售用于人工智能的强大硬件和云服务时使用的“了解你的客户”程序，并以限制武器销售的方式限制销售。这些要求将为不安全的人工智能滥用设置额外的障碍，因为计算访问可能是某些应用程序受到复杂威胁行为者的制约因素。

强制事件披露。当开发人员发现其人工智能系统中存在漏洞或故障时，他们必须依法向指定的政府机构报告，并且该机构必须采取措施，迅速向其他开发人员传达他们需要的信息，以加强他们自己的系统以防范类似风险。还必须通知任何受影响方。

监管行动：分销渠道和攻击面

要求所有分销渠道实施内容凭证。在未来几个月内为分销渠道设定一个最后期限，要求他们在所有平台上实施C2PA 的内容凭证标签标准（如上文关于人工智能系统监管的水印建议中所述），以便所有用户都能看到清晰提供的 CR“pin”（表示已附加凭证），并能够检查他们在通信源中看到的内容。

要求所有手机制造商采用 C2PA。徕卡、索尼、佳能和尼康等相机制造商都已采用 C2PA 标准来确定真实和合成图像、视频和音频的出处。徕卡已推出首款内置 C2PA 的相机，而重要的“真实性基础设施”公司Truepic已与高通合作，使用 C2PA 标准打造了一款“芯片组，可让任何设备安全地签署真实的原始图像或直接从智能手机生成完全透明的合成媒体”。苹果、谷歌、三星和其他硬件制造商可能需要被迫采用这一标准，或创建自己的兼容方法。

自动对真实内容进行数字签名。应迅速向所有人开放用于对人工生成内容进行签名的验证流程，并提供多种验证方法，而这些方法不一定需要披露个人身份信息。这些方法包括上传政府颁发的身份证件并拍摄匹配的自拍照等高精度方法，以及使用信号（例如打字节奏、SIM 卡或 IMEI（国际移动设备识别码，具有针对笔记本电脑/台式电脑的双因素移动身份验证）等唯一设备 ID）与其他信号（例如账户年龄、登录频率、与其他身份验证服务的连接、内容发布频率、原始媒体内容的真实性以及其他至少表明用户正在使用唯一设备的平台行为）相结合，以高度可信地证明用户是人类。所使用的选项和信号的选择不得对使用平台的任何人群造成偏见。

限制虚假内容的传播范围。在不确定的情况下（这种情况在许多社交媒体平台上已经很常见），未达到人工验证内容门槛的账户生成的内容仍可能被允许存在并发布或发送内容，但无法使用某些功能，例如病毒式传播其内容或发布广告、发送联系请求、拨打电话或向未连接用户发送消息的能力。由于本文前面描述的威胁仅在相对较大的范围内有效，因此内容级别和账户级别的概率行为评估方法足以应对风险，即使它们在银行或商业等其他安全应用中不足以进行验证。每个平台选择的方法应记录在其风险评估和缓解报告中，并由第三方审核。

对敏感内容采取额外的预防措施。对敏感内容（例如政治或广泛传播的内容）实施真实内容和合成内容的早期标记期限可以提前实施，并最终推广到所有内容。此类合成内容的标记要求也应该比其他类型内容的标记要求更清晰、更突出。

明确加密平台的责任。某些类型的分发渠道将比其他渠道带来更大的挑战——具体来说，加密平台如 WhatsApp、Telegram 和 Signal，它们历来对通过其渠道分发的有害内容承担的责任小于社交媒体平台。尽管如此，C2PA 的内容凭证或类似且兼容的方法可能会以隐私保护的方式在加密消息应用程序的界面中实现。加密平台还应被要求调查那些被举报为滥用内容的账户（当内容被举报给加密消息提供商时，它通常不再是加密的，因为平台有法律责任调查可能的非法内容），并在自己的风险评估和缓解措施中报告他们的努力。欧盟的监管机构也有一个重要的机会利用他们的 DSA，将Telegram 和 WhatsApp 等平台（它们具有造成信息生态系统漏洞的重大广播功能）归类为“非常大的在线平台”，并使其受到此指定带来的风险评估、缓解和审计协议的约束。

强化 CBRN 攻击面。由于不安全的人工智能系统已经发布，可能具有设计或促进生物武器生产的潜力，因此政府专家必须让所有定制核酸或任何其他可能被用作制造 CBRN 风险的中间材料的潜在危险物质的供应商了解他们可以采取的最佳做法，以降低其产品支持攻击的风险。

政府行动

建立一个灵活的监管机构。人工智能发展步伐迅速，需要一个能够迅速采取行动和执行以及更新某些执行标准的灵活监管机构。这个机构可以是现有的，也可以是新的。这个标准机构或机构将有权批准或拒绝风险评估、缓解措施和审计结果（如上文“监管行动：人工智能系统”中所建议的），处理注册，颁发许可证，并有权阻止模型的部署或开发。在欧盟，这已经在新成立的人工智能办公室中付诸行动。在美国，如果能够获得足够的预算，NIST 内新成立的人工智能安全研究所似乎是承担这一职责的最佳人选。今年 5 月，在韩国举办的人工智能安全峰会上，一些国家创建了一个人工智能安全研究所或类似名称的机构网络，这些机构要么已经启动，要么正在澳大利亚、加拿大、欧盟、法国、德国、意大利、日本、新加坡、韩国、英国和美国建立。

支持事实核查组织和民间社会观察员。要求生成式人工智能开发人员与事实核查组织和民间社会团体（包括《数字服务法》定义的“可信举报人”）合作并提供直接支持，为他们提供可用于调查复杂或复杂的生成式人工智能使用和滥用案件的取证软件工具，并通过扇出识别虚假内容的规模变化。这将包括以安全的形式访问最新的检测系统）。如果非常谨慎，人工智能系统还可以应用于事实核查本身的扩展和改进，以动态方式为误导性内容提供背景。

资助人工智能治理、审计、公平性和检测方面的创新。制定此类规则的国家和地区有机会支持人工智能关键领域的创新，这些创新对于确保人工智能系统和部署符合道德规范并符合这些法规至关重要。这可以采用拨款的形式，例如《人工智能行政命令》（第 5.2、5.3 节）中所述的拨款形式。

开展国际合作。如果没有国际合作（首先是双边合作，最终以条约或新国际机构的形式），这些建议将面临被规避的巨大风险。最近有很多理由让我们对进展抱有希望。中国在实施监管方面实际上已经远远领先于美国（有好的，有坏的），并且已经提出了全球人工智能治理的机会。

《布莱切利宣言》的 29 个签署国包括世界领先人工智能公司的所在国（美国、中国、英国、阿拉伯联合酋长国、法国、德国），该宣言确立了坚定的共同价值观，并为该组织的其他会议开辟了道路。联合国人工智能高级别咨询机构成立于 2023 年 8 月，于 2023 年底提出了中期建议，并将在 2024 年 9 月的未来峰会之前发布最终报告，有可能就国际治理制度提出宝贵建议。此外，七国集团广岛人工智能进程发布了一份声明、一套指导原则和一套针对开发先进人工智能系统的组织的行为准则。这些国际努力都还未接近达成具有约束力或可执行的协议，但对话进展如此迅速这一事实让相关专家感到乐观。

利用公共基础设施实现人工智能普及。人们对人工智能监管的一个普遍担忧是，这将限制能够生产复杂人工智能系统的公司数量，从而巩固寡头垄断的商业行为。然而，实现人工智能普及有很多机会，并不一定需要依赖不安全的人工智能系统。一种方法是通过创建公共人工智能基础设施，这样就可以创建强大而安全的人工智能模型，而不需要从营利性公司获得资金，而这对有道德意识的人工智能公司来说一直是一个挑战。只要谨慎开发，美国国家人工智能研究资源可能是朝这个方向迈出的良好第一步。另一种选择是采用反垄断的方式来管理人工智能，通过禁止潜在竞争对手访问硬件、云服务或模型 API 来限制垂直整合。

促进创新和监管先发优势

许多人会问，我在此提出的这些法规是否会扼杀实施地的创新。我（和其他人）认为，这些法规很可能会产生相反的效果，因为该领域的领导地位将为监管先行者带来诸多好处。

美国两家领先的人工智能初创公司 OpenAI 和 Anthropic 以高度的内部关注度脱颖而出，专注于安全地构建人工智能，并将社会利益放在核心位置。OpenAI最初是一个非营利组织。尽管随着时间的推移，它的价值已被淡化，或许在其首席执行官最近被解雇和重新聘用的情况下尤为明显，但这种结构仍然表明该公司可能与之前的科技巨头不同。Anthropic（从亚马逊获得 40 亿美元投资）的创始人离开了 OpenAI，因为他们希望更加专注于人工智能系统的安全性。两家公司的首席执行官都公开呼吁对人工智能进行监管，包括我上述许多建议的版本，尽管这会使他们自己在该领域的工作变得复杂。

两家公司还得出结论，将模型开源不符合他们在该领域的原则。怀疑论者可能会说，这一决定是出于公司控制模型以获取利润的利益，但无论如何，这一决定证明了，如果市场上没有功能强大且危险的开源模型，创新就会受到抑制，这是一种谬论。

创新可以采取多种形式，包括通过展示高水平的道德和社会责任来争夺资金和人才，这一策略促使一群“影响力投资者”在今年早些时候购买了该公司的股票。通过制定成为道德人工智能黄金标准的规则，包括遵循上述建议，早期采用人工智能的司法管辖区的政治领导人也可以将自己和他们的政体区分为具有前瞻性思维的参与者，他们了解这些技术的长期道德影响。监管也有助于重新平衡竞争环境，有利于注重道德的公司。正如我在上文“政府行动”部分的第三条建议中所说，政府为致力于人工智能治理、审计、公平和检测的创新型初创企业提供资金，将使率先实施监管的司法管辖区成为这些领域的领导者。我希望我们能看到开源人工智能系统蓬勃发展的未来，但前提是我们能够在分销渠道和其他安全系统中建立弹性，以遏制它们带来的重大风险。

创新可以有多种形式......通过制定成为道德人工智能的黄金标准的规则......早期采用该技术的司法管辖区的政治领导人也可以将自己和他们的政体区分为具有前瞻性思维的参与者，他们了解这些技术的长期道德影响。

一个有用的类比是有机食品标签的趋势。加利福尼亚州是美国第一个在 1979 年通过真正有机认证法的州。这意味着加利福尼亚州的有机农民在一段时间内实际上比其他州更难，因为他们必须经过严格的认证程序才能将他们的食品标记为有机食品。当国家有机标准于 1990 年出台时，加利福尼亚州的有机农民凭借其经验占据了优势。如今，加利福尼亚州生产的有机产品绝对数量超过其他任何州，在有机农场的相对面积方面在 50 个州中排名第四。

另一个有用的例子是安全带。四位前美国著名公务员在一篇专栏文章中很好地进行了类比：“联邦调查和最终法规要求安装安全带用了数年时间，最终出现了安全气囊和自动刹车等新技术。这些技术保障措施挽救了无数生命。以目前的形式，人工智能技术无论以何种速度行驶都是危险的。”

“先发优势”是一个常见的商业概念，但它也适用于监管格局的进步。欧盟已经因其 DSA 和数字市场法案而受到称赞，这两项法案有望成为事实上的全球标准。在解决基础模型监管相关问题之前，欧盟很可能成为世界上第一个颁布欧盟人工智能法案的主要人工智能立法的民主国家。该立法的强有力的版本将使该地区的人工智能市场成为世界的典范，并通过“布鲁塞尔效应”对全球公司的行为产生强大的影响。如果监管能够促使研究人员尽早做出考虑到开源安全问题的创新，例如防止有害微调的自毁模型权重，这些监管变化可能意味着未来人工智能的获取将更加民主。

结论

“我认为如何监管开源人工智能是短期内最重要的未解决问题，”认知科学家、企业家、纽约大学名誉教授加里·马库斯 (Gary Marcus) 在最近的一封电子邮件中告诉我。

我同意。这些建议只是解决问题的开始。正如本文初稿的一位审阅者所说，“这些很难，但也许这就是重点。”这里提出的许多法规从技术和政治角度来看都很“难”。它们最初实施起来成本高昂，至少在交易方面如此，而且它们可能要求一些监管机构做出的决定可能会让某些强大的游说者和开发商不满意。

不幸的是，鉴于当前人工智能和信息生态系统的激励机制不一致、民主制度的脆弱性以及地缘政治紧张局势加剧，除非迫不得已，否则行业本身不太可能迅速采取必要行动。但除非采取此类行动，否则生产不安全人工智能的公司将带来数十亿美元的投资和利润，同时将风险转嫁给我们所有人。

0 人点赞

文章来源于网络，如有侵权请联系本站删除

精选二手好课

更多>>

次卡|广州奥园广场芒果健身私教课转让

康复课、常规私教课

￥7500

次卡|瑜伽课转让

小班课

￥4263

年卡|大刊牛文课转让

大刊牛文课

￥1000

年卡|26考研英语课程转让

考研课

￥600

年卡|优路教育注册监理工程师线上课程

注册监理工程师

￥1800

年卡|一级建造师优路教育私教班

一级建造师

￥1000

年卡|注册电气工程师基础考试，英之教育，优培班

注册电气工程师

￥2000

年卡|超格网课转让

教师招聘

￥500

次卡|宁波哈喽贝比早教课时托班

早教课

￥8800

次卡|泰安克莱沃（金色雨林）早教课。配合更名。还余76节课。一口价8890转。

早教课

￥8890

模型一旦被发现存在安全漏洞，就没有第二次机会了

AI话题

363

2024-09-30

363

2024-09-30

并非开着也非关着

必须停止人工智能安全的逐底竞争

了解不安全和未经审查的人工智能的威胁

对于不安全的模型……如果发现安全漏洞，就没有第二次机会。

众所周知，《开源定义》规定“许可证不得歧视任何个人或群体”。在解释此条款时，OSI 本身指出“给予每个人自由意味着也给予邪恶的人自由。”

错误之手

分发渠道和攻击面

社交网络（Facebook、Instagram、LinkedIn、X、Mastodon 等）；视频分享平台（TikTok、YouTube）；

消息和语音通话平台（iMessage、WhatsApp、Messenger、Signal、Telegram、SMS、MMS 和电话呼叫应用程序）；搜索平台；以及广告平台。

如果化学或生物武器的开发源于不安全的人工智能系统，那么攻击面可能包括危险或定制分子和生物物质（如合成核酸）的供应商和制造商。

了解分发渠道和攻击面有助于了解不安全的人工智能系统所带来的特殊危险以及减轻这些危险的潜在方法。

插图由西蒙·普拉德斯（Simón Prades）绘制。

为什么不安全的人工智能更危险？

去除水印。不安全的人工智能可用于大规模、自动化地从内容中去除水印（如下所述），方法是改写文本或删除图像/音频/视频水印。

监管行动应适用于有担保和无担保的人工智能

我对监管和政府行动的建议分为三类：

1.针对人工智能系统的监管行动；

2.监管行动重点关注分销渠道和攻击面；

3.政府行动。

为了应对人工智能系统带来的现有和迫在眉睫的风险，政府应采取以下措施。

监管行动：人工智能系统

该模型能够以图像、音频和视频的形式制作高度逼真的合成媒体。