人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。
该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。
RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。
Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”
目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。
值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。
我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。
人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。
该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。
RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。
Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”
目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。
值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。
我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。