SeamlessM4T
SeamlessM4T是一款基于多模态模型的语音翻译产品,支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。该产品采用了全新的多任务UnitY模型架构,能够直接生成翻译文本和语音。SeamlessM4T的自我监督语音编码器w2v-BERT 2.0通过分析数百万小时的多语言语音,学习如何在语音中找到结构和意义。该产品还提供了SONAR、SpeechLASER等多语言语音和文本数据集,以及fairseq2等序列建模工具包。SeamlessM4T的发布,标志着AI技术在实现语音翻译方面取得了重大突破。