FoleyCrafter：让无声视频瞬间拥有逼真配音

全文摘要
本文介绍了FoleyCrafter，一个基于文本的视频到音频生成框架，它可以生成与输入视频在语义上相关且时间上同步的高质量音频。FoleyCrafter通过语义适配器和时间控制器，利用预训练的文本到音频模型，实现音频的高质量生成和精确的音视频同步，同时支持文本提示以实现可控和多样化的视频到音频生成。

关键段落

FoleyCrafter框架: 一个新颖的框架，利用预训练的文本到音频模型，确保音频的高质量生成，并通过语义适配器和时间控制器实现音视频的同步。
语义适配器（Semantic Adapter）: 使用并行交叉注意力层，根据视频特征调节音频生成，产生与视觉内容语义相关的逼真音效。
时间控制器（Temporal Controller）: 包含起始点检测器和基于时间戳的适配器，实现精确的音视频对齐。
兼容性与多样性: FoleyCrafter支持文本提示，允许用户根据意图使用文本描述来控制和多样化视频到音频的生成。
实验验证: 通过在标准基准上的广泛定量和定性实验，验证了FoleyCrafter的有效性。
代码与模型: 相关的模型和代码已在Github上公开。
应用案例:
动漫音频合成: 展示了FoleyCrafter在动漫视频音频合成中的应用。
Sora视频音频合成: 展示了FoleyCrafter在Sora视频音频合成中的应用。
VGGSound视频音频合成: 展示了FoleyCrafter在VGGSound视频音频合成中的应用。
文本基础的视频到音频生成: 展示了使用和不使用文本提示（如海鸥声、背景音乐、嘈杂人群声等）的生成音频对比，以及使用负面提示（如河流流动声、鸟鸣声、风噪声等）的效果。

项目地址：

https://foleycrafter.github.io

本文地址：https://www.163264.com/8753