Loading...

热门

Parler-TTS

2年前发布 490 00

轻量级文本转语音 (TTS) 模型

收录时间：

2024-06-25

AI漫剧全流程

Parler-TTS 是抱脸新开源的一种轻量级文本转语音 (TTS) 模型。

可以按照给定说话者的风格（性别、音调、说话风格等）生成高质量、听起来自然的语音。

与其他 TTS 模型相反，这款轻量级 TTS 模型将所有数据集、预处理、训练代码和权重来了个一次性大公开。

虽然没有像其它 TTS 工具一样，预置配音员模型、语速控制等功能。但可以让社区内的开发者们基于此模型开发出具备各场景特色或者更加强大的 TTS 模型，自由度非常高。

如今发布的第一个版本名为：Mini v0.1。是一个 600M 参数模型，经过 10.5K 小时的音频数据训练。

据官方介绍，接下来将致力于将数据扩展到 50,000 小时，为 v1 模型做准备。

数据统计

相关导航

CogVideoX-Fun

专治各类视频顽疾的AI外科医生

SafeEar

一款无需窃听内容即可识破语音伪造的跨时代安全工具

StarCoder 2

StarCoder2正在重新定义开发者生产力

IP-Adapter

IP-Adapter：无需代码就能实现的跨模态AI图像生成方案

TextDiffuser-2

为创意工作者量身打造的智能文本渲染神器

ActAnywhere

全球首款实现电影级人景互动的AI视频生成解决方案

Boximator

用AI重塑视频创作的动态美学

AtomoVideo

总结来说，AtomoVideo代表着图像转视频领域的新高度，通过创新的多粒度注入技术和超强兼容性，为动态内容创作提供了新范式。