一个基于扩散模型让人物头像说话的框架DreamTalk

DreamTalk是一个基于扩散模型的框架，由清华大学、阿里巴巴和华中科大共同开发。它能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。该项目使用扩散模型生成动态和表情丰富的说话头部动画，包括去噪网络、风格感知的嘴唇专家、风格预测器、音频和视频处理以及数据和模型训练等关键组件。

亮点：

DreamTalk不仅能够处理和生成训练过程中见过的面部类型和表情，还能有效处理和生成来自不同数据集的面部类型和表情，包括不同种族、年龄、性别的人物肖像，以及各种不同的表情和情绪。
DreamTalk支持多种语言、语气和语调。

项目地址：

https://dreamtalk-project.github.io/

本文地址：https://www.163264.com/5754