我们生活的世界从未如此紧密地联系在一起,让人们能够比以往获得更多的多语言内容。这也使得以任何语言交流和理解信息的能力变得越来越重要。
今天,我们推出 SeamlessM4T,这是第一个一体化多模式和多语言 AI 翻译模型,使人们能够通过不同语言的语音和文本轻松进行交流。SeamlessM4T 支持:
- 近100种语言的语音识别
- 近 100 种输入和输出语言的语音到文本翻译
- 语音转语音翻译,支持近100种输入语言和36种(含英语)输出语言
- 近 100 种语言的文本到文本翻译
- 文字转语音翻译,支持近100种输入语言和35种(含英语)输出语言
为了与我们的开放科学方法保持一致,我们根据研究许可证公开发布 SeamlessM4T,以允许研究人员和开发人员在这项工作的基础上进行开发。我们还发布了 SeamlessAlign 的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270,000 小时。
构建通用语言翻译器(例如《银河系漫游指南》中虚构的巴别鱼)具有挑战性,因为现有的语音到语音和语音到文本系统仅涵盖世界语言的一小部分。但我们相信,我们今天宣布的工作是这一旅程中向前迈出的重要一步。与使用单独模型的方法相比,SeamlessM4T 的单一系统方法减少了错误和延迟,提高了翻译过程的效率和质量。这使得使用不同语言的人们能够更有效地相互交流。
SeamlessM4T 建立在我们和其他人多年来在创建通用翻译器的过程中所取得的进步的基础上。去年,我们发布了 No Language Left Behind (NLLB),这是一种支持 200 种语言的文本到文本机器翻译模型,并已作为翻译提供者之一并入维基百科。我们还分享了通用语音翻译器的演示,这是第一个针对闽南语(一种没有广泛使用的书写系统的语言)的直接语音到语音翻译系统。今年早些时候,我们发布了Massively Multilingual Speech,它提供了超过 1,100 种语言的语音识别、语言识别和语音合成技术。
SeamlessM4T 借鉴了所有这些项目的研究成果,通过单一模型实现多语言和多模式翻译体验,该模型跨广泛的口语数据源构建,具有最先进的结果。这只是我们不断努力构建人工智能驱动的技术以帮助跨语言的人们联系的最新一步。未来,我们希望探索这一基础模型如何实现新的通信能力——最终让我们更接近一个每个人都能被理解的世界。