
Zonos 被称为最强开源语音模型,其语音生成质量非常高,并且有中文版本。它包含两种 1.6B 模型,分别是 transformer 和 SSM。可以使用 5 到 30 秒的语音进行高保真语音克隆。还能够调节速度、音高、音频质量和情绪。通过添加文本和音频前缀,可以实现更丰富的说话人匹配效果。在 RTX 4090 显卡上运行时,实时率约为 2 倍。
详情:
https://www.zyphra.com/post/beta-release-of-zonos-v0-1
项目地址:
https://github.com/Zyphra/Zonos
本文地址:https://www.163264.com/10482