LOADING

热门

Draw an Audio翻译站点

6个月前更新 642 00

Draw an Audio通过多模态指令系统实现精准的视频到音频合成，开创音效创作新模式

所在地：

美国

语言：

英语

收录时间：

2026-01-14

Ai开源项目 # AI开源项目 # AI音效分层编辑 # 多指令控制技术 # 开源音频数据集 # 视频转音频生成系统 # 音视频同步算法

AI漫剧全流程

Draw an Audio：多模态视频到音频生成系统

想象一下，您刚用AI生成了一段精彩的短视频，却苦于找不到完美匹配的音效。现在，中科院与美团科研团队联合推出的Draw an Audio系统，彻底改变了这一局面。它不仅仅是一个配乐工具，更是一个能根据文本、视频画面和声波信号多指令精准合成音频的AI建模系统。

核心技术优势：为何它能脱颖而出？

根据团队在arXiv上发布的论文，Draw an Audio在全球主流视频转音频（V2A）测试集中均取得了最高评分。其核心优势在于解决了传统方案的痛点：

音画同步难题：通过创新的时间响度模块（TLM），将声音延迟从数百毫秒缩短至难以察觉的38毫秒。
控制精度飞跃：支持文本、视频遮罩、声波曲线三维指令叠加，实现对特定物体或区域声音的精准控制。
复杂场景还原：在复杂动态场景中，其声场定位准确度比现有方案提升了47%。

五大颠覆性功能解析

Draw an Audio的强大，体现在其细致入微的功能设计上：

混合指令控制台：如同图像处理软件，用户可通过“文字描述+视频遮罩+声波线”的组合，对音频进行分层、精细化编辑。
双模感知黑科技：独有的遮罩注意力模块（MAM），能智能识别视频中的局部像素变化（如击球瞬间），并匹配复合音效。
分阶段混合创作：支持先生成基础音轨，再添加画外音等后期编辑，创作流程灵活自由。
开源数据集助力开发：团队公开了扩展的VGGSound-Caption数据集，包含超过10万条标注样本，极大降低了开发门槛。
即将开源模型权重：与许多封闭的黑盒模型不同，其开源计划将促进更广泛的研究与应用。

与传统方案的性能对比

为了更清晰地展示其突破，我们将其与传统方案进行对比：

控制维度：传统方案通常仅支持单一视频输入，而Draw an Audio支持三维指令叠加。
音效准确率：传统方案常出现环境音错位，Draw an Audio可实现物体移动轨迹与声音同步度大于92%。
开发友好度：传统方案多为封闭模型，Draw an Audio则走开源路线，提供数据集并即将开源模型权重。

实战体验与未来展望

在实际测试中，例如为一段“松鼠溪边”的视频生成音效，用户可以通过框选区域和绘制声波曲线，轻松创造出层次分明的立体声场，细节还原度极高。目前，其完全免费的在线Demo已开放体验。

尽管在实时渲染速度上仍有优化空间，但Draw an Audio已经为音画创作开启了新范式。从为老电影修复音效，到为游戏、VR场景动态生成环境声，其潜力无限。在这个AI重塑创作的时代，Draw an Audio让每个人都可能成为自己作品的音画总导演。

数据统计

相关导航

open-interpreter

open-interpreter

开源OpenAI的代码解释器

VideoReTalking

基于音频的口型视频同步编辑工具

onewebot2

通过Coze API快速搭建微信AI聊天机器人的一键部署方案

DDColor

基于深度学习技术的图像上色模型

StarCoder 2

StarCoder2正在重新定义开发者生产力

AnyText

AnyText正在重新定义智能设计的边界：支持21种语言的精准文本渲染

DDColor

让尘封的影像重获新生，DDColor开启智能着色新时代

FaceChain

全球首个支持个性化数字分身定制的开源AI写真平台