病毒式虚拟助手 Maya 背后的初创公司 Sesame 发布了其基础 AI 模型

111
2025-03-14


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。

79275
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
73
AI资讯

病毒式虚拟助手 Maya 背后的初创公司 Sesame 发布了其基础 AI 模型

收录于合集


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。


人工智能公司 Sesame发布了令人印象深刻的逼真语音助手 Maya 的基础模型 。


该模型拥有 10 亿个参数(“参数”指模型的各个组件),采用 Apache 2.0 许可,这意味着它可以在商业上使用,几乎没有限制。根据Sesame 在 AI 开发平台 Hugging Face 上的描述,该模型称为 CSM-1B,可从文本和音频输入生成“RVQ 音频代码”。


RVQ 指的是“残差矢量量化”,这是一种将音频编码为离散标记(称为代码)的技术。RVQ 用于许多最近的 AI 音频技术,包括 Google 的 SoundStream 和 Meta 的 Encodec。


CSM-1B 使用Meta 的 Llama 系列模型作为主干,并配有音频“解码器”组件。Sesame 表示,CSM 的精细调整版本为 Maya 提供动力。


Sesame 在 CSM-1B 的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成各种声音,但尚未针对任何特定声音进行微调 [...] 由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但效果可能不太好。”


目前尚不清楚芝麻街使用了哪些数据来训练 CSM-1B。该公司没有透露。


值得注意的是,该模型没有真正的保障措施。芝麻开门有一个荣誉系统,只是敦促开发人员和用户不要使用该模型在未经他人同意的情况下模仿他人的声音,不要创建虚假新闻等误导性内容,也不要从事“有害”或“恶意”活动。


我在 Hugging Face 上试用了演示版,克隆我的声音只用了不到一分钟的时间。从此以后,我就可以随心所欲地发表演讲,包括有关选举和俄罗斯宣传等有争议的话题。

79275
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
年卡|26考研英语课程转让
考研课
¥600
年卡|优路教育注册监理工程师线上课程
注册监理工程师
¥1800
年卡|一级建造师 优路教育 私教班
一级建造师
¥1000
年卡|注册电气工程师基础考试,英之教育,优培班
注册电气工程师
¥2000
年卡|超格网课转让
教师招聘
¥500
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890