DreamTalk是一个基于扩散模型的框架,由清华大学、阿里巴巴和华中科大共同开发。它能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。该项目使用扩散模型生成动态和表情丰富的说话头部动画,包括去噪网络、风格感知的嘴唇专家、风格预测器、音频和视频处理以及数据和模型训练等关键组件。
亮点:
- DreamTalk不仅能够处理和生成训练过程中见过的面部类型和表情,还能有效处理和生成来自不同数据集的面部类型和表情,包括不同种族、年龄、性别的人物肖像,以及各种不同的表情和情绪。
- DreamTalk支持多种语言、语气和语调。
项目地址:
https://dreamtalk-project.github.io/
本文地址:https://www.163264.com/5754