EchoMimic:音频+角色照片生成生动配嘴型视频

EchoMimic:音频+角色照片生成生动配嘴型视频

全文摘要
本文介绍了EchoMimic,一种新型的肖像视频生成技术,它能够通过音频、面部关键点或二者的组合来驱动生成逼真的动态肖像。EchoMimic通过创新的训练策略,解决了传统方法在音频驱动不稳定或关键点驱动导致不自然的问题,并通过公共数据集和自收集数据集的比较,证明了其在定量和定性评估中的优越性能。

关键段落

  • 技术背景: 肖像图像动画领域在音频输入驱动下取得了显著进展,但传统方法存在音频驱动不稳定和关键点驱动不自然的问题。
  • EchoMimic介绍: 该技术通过同时使用音频和面部关键点进行训练,能够单独或结合使用音频和选定的关键点来生成肖像视频。
  • 创新点: EchoMimic采用新颖的训练策略,提高了音频驱动的稳定性,同时避免了关键点驱动的过度控制,从而生成更自然的视频。
  • 性能评估: EchoMimic在多个公共数据集和自收集数据集上进行了全面比较,展现出在定量和定性评估中的优越性。
  • 资源提供: 项目页面提供了额外的可视化效果和源代码访问。

参考文献格式

  • 文章标题: EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
  • 作者: Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma
  • 发表年份: 2024
  • 电子版: 1234.01900
  • 存档前缀: arXiv
  • 主要分类: cs.CV

项目地址:

https://badtobest.github.io/echomimic.html

本文地址:https://www.163264.com/8717

(0)
上一篇 2024年7月12日 上午12:21
下一篇 2024年7月12日 上午12:24