高度真实和自然的文本到语音(TTS)转换模型-MetaVoice-1B

该模型拥有1.2亿个参数,经过了10万小时的语音数据训练。

* 专注于英语情感演讲
* 跨语言语音克隆
* 支持美国和英国声音的零样本克隆
* 支持长篇内容语音合成

主要特点:

1、情感语音节奏和音调:MetaVoice-1B专注于英语语音的情感表达,提供流畅、自然的语音输出,无幻觉现象。

2、跨语言语音克隆:支持通过微调实现跨语言的声音克隆。例如,对于印度说话者,仅需1分钟的训练数据即可成功克隆。

3、零样本克隆:对于美国和英国的声音,MetaVoice能够实现零样本克隆,只需30秒的参考音频即可。

4、长篇朗读支持:适用于长文本内容的语音合成。

工作原理:

1、因果GPT预测:MetaVoice使用一种称为因果GPT的模型来处理文本和生成语音。因果GPT能够根据给定的文本预测接下来的词或令牌。

在MetaVoice中,这个模型被用来预测EnCodec令牌的前两个层次,这些令牌代表了语音的初步结构。这种预测考虑了文本内容和音频样本,使得生成的语音既准确又自然。

2、说话者信息的条件化传递:为了让生成的语音能够模仿特定的说话者,MetaVoice在令牌嵌入层加入了说话者信息。这些信息是通过一个单独训练的说话者验证网络获得的,它能够识别说话者的特定属性,如音调和口音。通过将这些信息融合到模型中,MetaVoice能够生成与指定说话者声音相似的语音输出。

3、非因果变压器预测剩余层次:MetaVoice接下来使用一个小型的非因果(编码器风格)变压器模型来预测EnCodec令牌的剩余六个层次。这个模型只有大约1000万参数,相对较小,但是它在预测语音的更细节部分时展现出了惊人的效率和准确性。由于这个模型是非因果的,它可以同时处理多个时间步骤,加速了语音生成过程。

4、多带扩散生成波形:通过使用多带扩散技术,MetaVoice能够将EnCodec令牌转换成详细的波形,即最终的音频输出。这种方法通过在不同频带上独立处理音频信号来提高音质,生成更清晰、自然的语音。

5、DeepFilterNet清理背景噪声:生成的语音可能包含一些不希望的背景噪声,特别是由多带扩散过程引入的。为了解决这个问题,MetaVoice采用了DeepFilterNet,这是一种专门设计来清除背景噪声的网络。通过这一步骤,生成的语音变得更加清晰和自然,提升了听众的体验。

在线地址:

https://ttsdemo.themetavoice.xyz/

模型地址:

https://huggingface.co/metavoiceio/metavoice-1B-v0.1

本文地址:https://www.163264.com/6540

(0)
上一篇 2024年2月10日 下午2:21
下一篇 2024年2月10日 下午2:26