讯飞智作-AI配音
一站式AI生成虚拟主播视频与专业级配音,节省真人拍摄90%成本
Meta推出的Voicebox人工智能模型,正在彻底改变语音合成技术。它能以20倍速生成媲美真人、自然流畅的跨语言语音,并具备强大的音频编辑能力,标志着语音AI进入了一个全新阶段。
与传统语音合成技术相比,Voicebox实现了多项革命性突破:
Voicebox采用非自回归流匹配模型,这使其在效率上具有压倒性优势。生成一段2分钟的语音仅需约0.7秒,远超传统序列生成方法。这种高效能预示着广阔的应用前景:
出于对技术滥用(如深度伪造音频)的安全考虑,Meta目前并未公开Voicebox模型或提供公测。官方同时展示了配套的音频水印技术,可有效识别合成语音。
尽管暂未商业化,但其展现的技术路径已为行业树立了新标杆。当未来安全措施完善后,Voicebox及其迭代技术(如能通过文本描述生成音色的Audiobox)有望通过API开放,为各行各业带来前所未有的语音合成与编辑体验。