Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本,并开源了翻译数据集SeamlessAlign。Meta称,这是迄今为止最大的开放多模式翻译数据集,覆盖挖掘的语音和文本对齐总计27万小时。
在进行鲁棒性测试时,与当前最先进的模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提高了37%和48%。
Demo地址:
https://seamless.metademolab.com/
GitHub开源地址:https://github.com/facebookresearch/seamless_communication
本文地址:https://www.163264.com/5031