EchoMimic：音频+角色照片生成生动配嘴型视频

全文摘要
本文介绍了EchoMimic，一种新型的肖像视频生成技术，它能够通过音频、面部关键点或二者的组合来驱动生成逼真的动态肖像。EchoMimic通过创新的训练策略，解决了传统方法在音频驱动不稳定或关键点驱动导致不自然的问题，并通过公共数据集和自收集数据集的比较，证明了其在定量和定性评估中的优越性能。

关键段落

技术背景: 肖像图像动画领域在音频输入驱动下取得了显著进展，但传统方法存在音频驱动不稳定和关键点驱动不自然的问题。
EchoMimic介绍: 该技术通过同时使用音频和面部关键点进行训练，能够单独或结合使用音频和选定的关键点来生成肖像视频。
创新点: EchoMimic采用新颖的训练策略，提高了音频驱动的稳定性，同时避免了关键点驱动的过度控制，从而生成更自然的视频。
性能评估: EchoMimic在多个公共数据集和自收集数据集上进行了全面比较，展现出在定量和定性评估中的优越性。
资源提供: 项目页面提供了额外的可视化效果和源代码访问。

参考文献格式

文章标题: EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
作者: Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma
发表年份: 2024
电子版: 1234.01900
存档前缀: arXiv
主要分类: cs.CV

项目地址：

https://badtobest.github.io/echomimic.html

本文地址：https://www.163264.com/8717