Parler-TTS 是抱脸新开源的一种轻量级文本转语音 (TTS) 模型。
可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、听起来自然的语音。
与其他 TTS 模型相反,这款轻量级 TTS 模型将所有数据集、预处理、训练代码和权重来了个一次性大公开。
虽然没有像其它 TTS 工具一样,预置配音员模型、语速控制等功能。但可以让社区内的开发者们基于此模型开发出具备各场景特色或者更加强大的 TTS 模型,自由度非常高。
如今发布的第一个版本名为:Mini v0.1。是一个 600M 参数模型,经过 10.5K 小时 的音频数据训练。
据官方介绍,接下来将致力于将数据扩展到 50,000 小时,为 v1 模型做准备。
数据统计
相关导航
暂无评论...