Video-Foley是一个创新的视频到声音生成系统,它通过使用均方根(RMS)作为时间事件条件,结合语义音色提示(音频或文本),实现高控制性和同步性的视频声音合成。该系统采用无需标注的自监督学习框架,包括Video2RMS和RMS2Sound两个阶段,结合了RMS离散化和RMS-ControlNet等新颖概念,与预训练的文本到音频模型相结合。Video-Foley在声音时间、强度、音色和细节的音视频对齐和控制性方面达到了最先进的性能。Video-Foley主要面向多媒体制作人员、视频编辑者和声音设计师,他们需要在视频制作过程中同步音频和视频,增强用户体验。该系统能够自动化繁琐的Foley声音生成过程,提供高控制性和灵活性,适合需要精确音频同步和丰富音色表达的专业用户。

搜索