在我们与SeamlessM4T的合作基础上,我们今天公开发布了一些改进,这些改进可以跨语言保留表达,并将延迟降低到约两秒。在我们日益互联的世界中,语言差异可能成为沟通的障碍,翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而,如今许多这些系统并不能保留人类沟通所具有的关键要素。具体而言,传达我们想要表达的不仅仅是我们选择的词语,还有我们说话的方式。语调、停顿和强调都传递着帮助我们沟通情感和意图的重要信号。此外,人类的语音和翻译对于诸如轮流发言和时间控制等微妙之处也非常敏感。例如,想象一下人类口译员的工作方式:他们在低延迟和准确翻译之间找到了恰到好处的平衡。等待时间过长会阻碍沟通的流畅进行,而速度过快则会影响翻译的整体质量。能够实现真实对话的翻译系统应该在所有这些沟通要素上都能够交付。
详情:
https://ai.meta.com/blog/seamless-communication/
支持以下任务: •语音到语音翻译(S2ST) •语音到文本翻译(S2TT) •文本到语音翻译(T2ST) •文本到文本翻译(T2TT) •自动语音识别(ASR)
体验地址:
https://seamless.metademolab.com/expressive
官网介绍:
https://ai.meta.com/research/seamless-communication/
这篇内容介绍了Meta进行的人工智能研究,旨在通过表达丰富、快速和高质量的人工智能翻译来消除语言障碍。他们开发了一系列AI研究模型,可以实现更自然、真实的跨语言交流。其中包括SeamlessExpressive模型,旨在保留语言的表达和细节;SeamlessStreaming模型,可以在约两秒的延迟内进行语音和文本翻译;SeamlessM4T v2模型,是一种多语言和多任务模型,可以通过语音和文本实现轻松交流。Meta还公开发布了这些模型,以促进开放研究和合作。
本文地址:https://www.163264.com/5646