FaceChain
全球首个支持个性化数字分身定制的开源AI写真平台
Draw an Audio通过多模态指令系统实现精准的视频到音频合成,开创音效创作新模式
想象一下,您刚用AI生成了一段精彩的短视频,却苦于找不到完美匹配的音效。现在,中科院与美团科研团队联合推出的Draw an Audio系统,彻底改变了这一局面。它不仅仅是一个配乐工具,更是一个能根据文本、视频画面和声波信号多指令精准合成音频的AI建模系统。
根据团队在arXiv上发布的论文,Draw an Audio在全球主流视频转音频(V2A)测试集中均取得了最高评分。其核心优势在于解决了传统方案的痛点:
Draw an Audio的强大,体现在其细致入微的功能设计上:
为了更清晰地展示其突破,我们将其与传统方案进行对比:
在实际测试中,例如为一段“松鼠溪边”的视频生成音效,用户可以通过框选区域和绘制声波曲线,轻松创造出层次分明的立体声场,细节还原度极高。目前,其完全免费的在线Demo已开放体验。
尽管在实时渲染速度上仍有优化空间,但Draw an Audio已经为音画创作开启了新范式。从为老电影修复音效,到为游戏、VR场景动态生成环境声,其潜力无限。在这个AI重塑创作的时代,Draw an Audio让每个人都可能成为自己作品的音画总导演。