全文摘要
本文介绍了EchoMimic,一种新型的肖像视频生成技术,它能够通过音频、面部关键点或二者的组合来驱动生成逼真的动态肖像。EchoMimic通过创新的训练策略,解决了传统方法在音频驱动不稳定或关键点驱动导致不自然的问题,并通过公共数据集和自收集数据集的比较,证明了其在定量和定性评估中的优越性能。
关键段落
- 技术背景: 肖像图像动画领域在音频输入驱动下取得了显著进展,但传统方法存在音频驱动不稳定和关键点驱动不自然的问题。
- EchoMimic介绍: 该技术通过同时使用音频和面部关键点进行训练,能够单独或结合使用音频和选定的关键点来生成肖像视频。
- 创新点: EchoMimic采用新颖的训练策略,提高了音频驱动的稳定性,同时避免了关键点驱动的过度控制,从而生成更自然的视频。
- 性能评估: EchoMimic在多个公共数据集和自收集数据集上进行了全面比较,展现出在定量和定性评估中的优越性。
- 资源提供: 项目页面提供了额外的可视化效果和源代码访问。
参考文献格式
- 文章标题: EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
- 作者: Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma
- 发表年份: 2024
- 电子版: 1234.01900
- 存档前缀: arXiv
- 主要分类: cs.CV
项目地址:
https://badtobest.github.io/echomimic.html
本文地址:https://www.163264.com/8717