一年过去了,OpenAI 仍未发布其语音克隆工具

68
2025-03-07












去年 3 月下旬,OpenAI 宣布对其人工智能服务 “语音引擎(Voice Engine)” 进行 “小规模预览”,该公司声称,只需 15 秒的语音就能克隆一个人的声音。大约一年过去了,这款工具仍处于预览阶段,OpenAI 也没有透露它可能何时推出 —— 甚至都没表明是否会正式推出。



该公司不愿广泛推出这项服务,可能是担心被滥用,但这也可能反映出其在努力避免招来监管审查。OpenAI 历来被指责为了追求 “亮眼的产品” 而忽视安全,还为了抢在竞争对手之前推向市场而仓促发布产品。



OpenAI 的一位发言人在一份声明中告诉 TechCrunch,公司正在继续与一组有限的 “可信合作伙伴” 一起测试语音引擎。



这位发言人表示:“我们正在了解合作伙伴如何使用这项技术,以便提高模型的实用性和安全性。我们很高兴看到它被应用于不同的场景,比如言语治疗、语言学习、客户支持、电子游戏角色以及人工智能虚拟形象等领域。”



推迟发布



语音引擎为 OpenAI 的文本转语音应用程序接口(API)以及 ChatGPT 的语音模式中的语音功能提供支持,它能生成听起来很自然、与原声极为相似的语音。该工具可将文字转换为语音,仅受内容方面的某些限制条件约束。但从一开始,它就面临着发布时间推迟以及发布窗口不断变动的情况。



正如 OpenAI 在 2024 年 6 月的一篇博客文章中所解释的那样,语音引擎模型会学习预测说话者针对给定文本转录内容最有可能发出的声音,同时考虑到不同的嗓音、口音和说话风格等因素。在此之后,该模型不仅能生成文本的语音版本,还能生成反映不同类型说话者朗读文本方式的 “口语表述”。



据 TechCrunch 看到的一篇博客草稿文章显示,OpenAI 最初打算在 2024 年 3 月 7 日将语音引擎(最初名为 “定制语音”)引入其 API。计划是先让多达 100 名 “可信开发者” 提前试用,之后再更广泛地推出,优先考虑那些开发能带来 “社会效益” 或展示出对该技术 “创新且负责任” 使用方式的应用程序的开发者。OpenAI 甚至还为其申请了商标并确定了价格:“标准” 语音每百万字符收费 15 美元,“高清质量” 语音每百万字符收费 30 美元。



然而,在关键时刻,该公司推迟了这一发布计划。几周后,OpenAI 最终公布了语音引擎,但没有提供注册选项。OpenAI 表示,能使用该工具的仍然仅限于 2023 年末开始合作的大约 10 名开发者。



OpenAI 在 2024 年 3 月下旬发布语音引擎的公告博客文章中写道:“我们希望就合成语音的负责任部署以及社会如何适应这些新能力展开对话。基于这些交流以及小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决策。”



研发已久



据 OpenAI 称,语音引擎自 2022 年就开始研发了。该公司声称,在 2023 年夏天向 “全球最高层级的政策制定者” 展示了这款工具,以展示其潜力 —— 以及风险。



如今,有几家合作伙伴可以使用语音引擎,其中包括初创公司 Livox,该公司正在研发能让残障人士更自然地进行交流的设备。Livox 公司首席执行官卡洛斯・佩雷拉(Carlos Pereira)告诉 TechCrunch,由于该工具需要联网(而 Livox 的许多客户没有网络),最终无法将语音引擎整合到产品中,但他觉得这项技术 “着实令人印象深刻”。



佩雷拉通过电子邮件告诉 TechCrunch:“语音的质量以及让语音能用不同语言说话的这种可能性是独一无二的 —— 对于我们的客户,也就是残障人士来说尤其如此。它真的是我见过的最令人印象深刻且最易用的语音创建工具…… 我们希望 OpenAI 能尽快推出离线版本。”



佩雷拉表示,他没有从 OpenAI 那里得到关于语音引擎可能发布时间的相关指引,也没有看到该公司有计划对这项服务收费的任何迹象。到目前为止,Livox 使用该工具还无需付费。



在上述提到的 2024 年 6 月那篇文章中,OpenAI 暗示,其推迟语音引擎发布的考虑因素之一是去年美国大选周期中可能出现的滥用情况。在与利益相关者进行讨论后,语音引擎设置了几项缓解风险的安全措施,包括添加水印以追踪生成音频的来源。



OpenAI 表示,开发者在使用语音引擎之前必须获得原声说话者的 “明确同意”,而且必须向受众 “明确披露” 声音是由人工智能生成的。不过,该公司并未说明将如何执行这些政策。即便对于 OpenAI 这样资源丰富的公司来说,大规模执行这些政策也可能极具挑战性。



在其博客文章中,OpenAI 还暗示,希望打造一种 “语音认证体验” 来验证说话者身份,并建立一个 “禁止名单”,防止创建与知名人物声音过于相似的语音。这两个都是技术上颇具雄心的项目,如果处理不当,对于一家常被指责忽视安全举措的公司来说,将会产生不良影响。



有效的过滤和身份验证正迅速成为负责任的语音克隆技术发布的基本要求。据某消息来源称,人工智能语音克隆是 2024 年增长第三快的诈骗手段。它导致了欺诈行为发生,银行安全检查被绕过,而隐私和版权法律却难以跟上形势。恶意行为者利用语音克隆技术制作名人、政客的煽动性深度伪造内容,这些深度伪造内容在社交媒体上迅速传播开来。



OpenAI 可能下周就发布语音引擎 —— 也可能永远都不发布。该公司一再表示,正在权衡是否要将这项服务的规模控制在较小范围内。但有一点很明确:出于形象方面、安全方面或者两方面的原因,语音引擎的有限预览已经成为 OpenAI 历史上历时最长的预览之一。












 

78609
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
73
AI资讯

一年过去了,OpenAI 仍未发布其语音克隆工具

收录于合集












去年 3 月下旬,OpenAI 宣布对其人工智能服务 “语音引擎(Voice Engine)” 进行 “小规模预览”,该公司声称,只需 15 秒的语音就能克隆一个人的声音。大约一年过去了,这款工具仍处于预览阶段,OpenAI 也没有透露它可能何时推出 —— 甚至都没表明是否会正式推出。



该公司不愿广泛推出这项服务,可能是担心被滥用,但这也可能反映出其在努力避免招来监管审查。OpenAI 历来被指责为了追求 “亮眼的产品” 而忽视安全,还为了抢在竞争对手之前推向市场而仓促发布产品。



OpenAI 的一位发言人在一份声明中告诉 TechCrunch,公司正在继续与一组有限的 “可信合作伙伴” 一起测试语音引擎。



这位发言人表示:“我们正在了解合作伙伴如何使用这项技术,以便提高模型的实用性和安全性。我们很高兴看到它被应用于不同的场景,比如言语治疗、语言学习、客户支持、电子游戏角色以及人工智能虚拟形象等领域。”



推迟发布



语音引擎为 OpenAI 的文本转语音应用程序接口(API)以及 ChatGPT 的语音模式中的语音功能提供支持,它能生成听起来很自然、与原声极为相似的语音。该工具可将文字转换为语音,仅受内容方面的某些限制条件约束。但从一开始,它就面临着发布时间推迟以及发布窗口不断变动的情况。



正如 OpenAI 在 2024 年 6 月的一篇博客文章中所解释的那样,语音引擎模型会学习预测说话者针对给定文本转录内容最有可能发出的声音,同时考虑到不同的嗓音、口音和说话风格等因素。在此之后,该模型不仅能生成文本的语音版本,还能生成反映不同类型说话者朗读文本方式的 “口语表述”。



据 TechCrunch 看到的一篇博客草稿文章显示,OpenAI 最初打算在 2024 年 3 月 7 日将语音引擎(最初名为 “定制语音”)引入其 API。计划是先让多达 100 名 “可信开发者” 提前试用,之后再更广泛地推出,优先考虑那些开发能带来 “社会效益” 或展示出对该技术 “创新且负责任” 使用方式的应用程序的开发者。OpenAI 甚至还为其申请了商标并确定了价格:“标准” 语音每百万字符收费 15 美元,“高清质量” 语音每百万字符收费 30 美元。



然而,在关键时刻,该公司推迟了这一发布计划。几周后,OpenAI 最终公布了语音引擎,但没有提供注册选项。OpenAI 表示,能使用该工具的仍然仅限于 2023 年末开始合作的大约 10 名开发者。



OpenAI 在 2024 年 3 月下旬发布语音引擎的公告博客文章中写道:“我们希望就合成语音的负责任部署以及社会如何适应这些新能力展开对话。基于这些交流以及小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决策。”



研发已久



据 OpenAI 称,语音引擎自 2022 年就开始研发了。该公司声称,在 2023 年夏天向 “全球最高层级的政策制定者” 展示了这款工具,以展示其潜力 —— 以及风险。



如今,有几家合作伙伴可以使用语音引擎,其中包括初创公司 Livox,该公司正在研发能让残障人士更自然地进行交流的设备。Livox 公司首席执行官卡洛斯・佩雷拉(Carlos Pereira)告诉 TechCrunch,由于该工具需要联网(而 Livox 的许多客户没有网络),最终无法将语音引擎整合到产品中,但他觉得这项技术 “着实令人印象深刻”。



佩雷拉通过电子邮件告诉 TechCrunch:“语音的质量以及让语音能用不同语言说话的这种可能性是独一无二的 —— 对于我们的客户,也就是残障人士来说尤其如此。它真的是我见过的最令人印象深刻且最易用的语音创建工具…… 我们希望 OpenAI 能尽快推出离线版本。”



佩雷拉表示,他没有从 OpenAI 那里得到关于语音引擎可能发布时间的相关指引,也没有看到该公司有计划对这项服务收费的任何迹象。到目前为止,Livox 使用该工具还无需付费。



在上述提到的 2024 年 6 月那篇文章中,OpenAI 暗示,其推迟语音引擎发布的考虑因素之一是去年美国大选周期中可能出现的滥用情况。在与利益相关者进行讨论后,语音引擎设置了几项缓解风险的安全措施,包括添加水印以追踪生成音频的来源。



OpenAI 表示,开发者在使用语音引擎之前必须获得原声说话者的 “明确同意”,而且必须向受众 “明确披露” 声音是由人工智能生成的。不过,该公司并未说明将如何执行这些政策。即便对于 OpenAI 这样资源丰富的公司来说,大规模执行这些政策也可能极具挑战性。



在其博客文章中,OpenAI 还暗示,希望打造一种 “语音认证体验” 来验证说话者身份,并建立一个 “禁止名单”,防止创建与知名人物声音过于相似的语音。这两个都是技术上颇具雄心的项目,如果处理不当,对于一家常被指责忽视安全举措的公司来说,将会产生不良影响。



有效的过滤和身份验证正迅速成为负责任的语音克隆技术发布的基本要求。据某消息来源称,人工智能语音克隆是 2024 年增长第三快的诈骗手段。它导致了欺诈行为发生,银行安全检查被绕过,而隐私和版权法律却难以跟上形势。恶意行为者利用语音克隆技术制作名人、政客的煽动性深度伪造内容,这些深度伪造内容在社交媒体上迅速传播开来。



OpenAI 可能下周就发布语音引擎 —— 也可能永远都不发布。该公司一再表示,正在权衡是否要将这项服务的规模控制在较小范围内。但有一点很明确:出于形象方面、安全方面或者两方面的原因,语音引擎的有限预览已经成为 OpenAI 历史上历时最长的预览之一。












 

78609
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890