FoleyCrafter:让无声视频瞬间拥有逼真配音

FoleyCrafter:让无声视频瞬间拥有逼真配音

全文摘要
本文介绍了FoleyCrafter,一个基于文本的视频到音频生成框架,它可以生成与输入视频在语义上相关且时间上同步的高质量音频。FoleyCrafter通过语义适配器和时间控制器,利用预训练的文本到音频模型,实现音频的高质量生成和精确的音视频同步,同时支持文本提示以实现可控和多样化的视频到音频生成。

关键段落

  • FoleyCrafter框架: 一个新颖的框架,利用预训练的文本到音频模型,确保音频的高质量生成,并通过语义适配器和时间控制器实现音视频的同步。
  • 语义适配器(Semantic Adapter): 使用并行交叉注意力层,根据视频特征调节音频生成,产生与视觉内容语义相关的逼真音效。
  • 时间控制器(Temporal Controller): 包含起始点检测器和基于时间戳的适配器,实现精确的音视频对齐。
  • 兼容性与多样性: FoleyCrafter支持文本提示,允许用户根据意图使用文本描述来控制和多样化视频到音频的生成。
  • 实验验证: 通过在标准基准上的广泛定量和定性实验,验证了FoleyCrafter的有效性。
  • 代码与模型: 相关的模型和代码已在Github上公开。
  • 应用案例:
  • 动漫音频合成: 展示了FoleyCrafter在动漫视频音频合成中的应用。
  • Sora视频音频合成: 展示了FoleyCrafter在Sora视频音频合成中的应用。
  • VGGSound视频音频合成: 展示了FoleyCrafter在VGGSound视频音频合成中的应用。
  • 文本基础的视频到音频生成: 展示了使用和不使用文本提示(如海鸥声、背景音乐、嘈杂人群声等)的生成音频对比,以及使用负面提示(如河流流动声、鸟鸣声、风噪声等)的效果。

项目地址:

https://foleycrafter.github.io

本文地址:https://www.163264.com/8753

(0)
上一篇 2024年7月12日 上午12:23
下一篇 2024年7月12日 上午12:25