微软正在启动一项研究项目,以评估特定训练示例对生成式 AI 模型创建的文本、图像和其他类型媒体的影响。
这是最近在 LinkedIn 上重新发布的 12 月份招聘信息。
根据该招聘研究实习生的招聘信息,该项目将试图证明,可以以某种方式训练模型,以便可以“有效且有用地评估”特定数据(例如照片和书籍)对其输出的影响。
“目前的神经网络架构在提供生成数据来源方面不透明,有充分的理由改变这一现状,”清单中写道。“[其中之一是]激励、认可和潜在报酬,为那些为我们未来想要的不可预见的模型贡献某些有价值数据的人,假设未来会给我们带来根本性的惊喜。”
人工智能文本、代码、图像、视频和歌曲生成器是许多针对人工智能公司的知识产权诉讼的核心。这些公司经常利用来自公共网站的大量数据来训练他们的模型,其中一些数据受版权保护。许多公司辩称, 合理使用原则 保护了他们的数据抓取和训练实践。但从艺术家到程序员再到作家,创意人士大多不同意这一观点。
微软本身也面临来自版权持有者的至少两起法律挑战。
去年 12 月, 《纽约时报》起诉了这家科技巨头及其合作伙伴 OpenAI,指控这两家公司部署了基于数百万篇《纽约时报》文章训练的模型,侵犯了《纽约时报》的版权。几家软件开发商也起诉了微软,声称该公司的 GitHub Copilot AI 编码助手非法使用了他们受保护的作品进行训练。
据报道,微软的新研究工作(清单中将其描述为“训练时间来源”)得到了微软研究院的杰出技术专家和跨学科科学家Jaron Lanier 的参与。在 2023 年 4 月《纽约客》的一篇专栏文章中,Lanier 撰写了“数据尊严”的概念,对他来说,这意味着将“数字内容”与“希望因创造它而出名的人”联系起来。
“当大型模型提供有价值的输出时,数据尊严方法将追踪最独特和最有影响力的贡献者,”Lanier 写道。“例如,如果你要求模型制作‘一部动画电影,讲述我的孩子在油画世界中的会说话的猫的冒险经历’,那么某些关键的油画家、猫肖像画家、配音演员和作家——或他们的遗产——可能会被认为对新杰作的创作具有独特的重要性。他们会得到认可和激励。他们甚至可能会得到报酬。”
已经有几家公司在尝试这样做,这并非毫无道理。人工智能模型开发商 Bria 最近筹集了 4000 万美元的风险投资,该公司声称将根据数据所有者的“总体影响力”“以编程方式”向他们支付报酬。Adobe 和 Shutterstock 也会定期向数据集贡献者支付报酬,尽管确切的支付金额往往不透明。
除了与出版商、平台和数据经纪人签署许可协议外,很少有大型实验室建立个人贡献者支付计划。相反,它们为版权持有者提供了“选择退出”训练的手段。但其中一些选择退出的过程很繁琐,而且只适用于未来的模型,而不适用于之前训练过的模型。
当然,微软的项目可能只不过是一个概念验证。这已经有先例了。早在 5 月,OpenAI 就表示正在开发类似的技术,让创作者可以指定他们希望自己的作品如何被纳入或排除在训练数据之外。但近一年过去了,该工具仍未面世,而且在内部,它往往不被视为优先事项。
微软可能也试图在此进行“道德洗白”——或者阻止对其人工智能业务造成破坏的监管和/或法庭判决。
但考虑到其他人工智能实验室最近表达的公平使用立场,该公司正在研究追踪训练数据的方法,这一点值得注意。包括谷歌和 OpenAI 在内的几家顶级实验室都发布了政策文件,建议特朗普政府削弱与人工智能开发相关的版权保护。OpenAI明确呼吁美国政府将模型训练的公平使用纳入法典,它认为这将使开发人员摆脱繁重的限制。
微软没有立即回应置评请求。