全文摘要
本文介绍了FoleyCrafter,一个基于文本的视频到音频生成框架,它可以生成与输入视频在语义上相关且时间上同步的高质量音频。FoleyCrafter通过语义适配器和时间控制器,利用预训练的文本到音频模型,实现音频的高质量生成和精确的音视频同步,同时支持文本提示以实现可控和多样化的视频到音频生成。
关键段落
- FoleyCrafter框架: 一个新颖的框架,利用预训练的文本到音频模型,确保音频的高质量生成,并通过语义适配器和时间控制器实现音视频的同步。
- 语义适配器(Semantic Adapter): 使用并行交叉注意力层,根据视频特征调节音频生成,产生与视觉内容语义相关的逼真音效。
- 时间控制器(Temporal Controller): 包含起始点检测器和基于时间戳的适配器,实现精确的音视频对齐。
- 兼容性与多样性: FoleyCrafter支持文本提示,允许用户根据意图使用文本描述来控制和多样化视频到音频的生成。
- 实验验证: 通过在标准基准上的广泛定量和定性实验,验证了FoleyCrafter的有效性。
- 代码与模型: 相关的模型和代码已在Github上公开。
- 应用案例:
- 动漫音频合成: 展示了FoleyCrafter在动漫视频音频合成中的应用。
- Sora视频音频合成: 展示了FoleyCrafter在Sora视频音频合成中的应用。
- VGGSound视频音频合成: 展示了FoleyCrafter在VGGSound视频音频合成中的应用。
- 文本基础的视频到音频生成: 展示了使用和不使用文本提示(如海鸥声、背景音乐、嘈杂人群声等)的生成音频对比,以及使用负面提示(如河流流动声、鸟鸣声、风噪声等)的效果。
项目地址:
https://foleycrafter.github.io
本文地址:https://www.163264.com/8753