JoyHallo翻译站点

6个月前更新 420 00

京东开源的智能数字人生成器，实现中英文双模态视频生成与精准唇形同步

所在地：

美国

语言：

英语

收录时间：

2026-01-14

打开网站

Ai开源项目 # AI开源项目 # 唇形同步算法 # 开源AI项目 # 数字人模型 # 普通话视频生成 # 跨语言AI # 音频驱动视频技术

如何用JoyHallo重新定义数字人表达？

初次体验JoyHallo，这款由京东健康团队研发的语言大模型令人惊喜。它专注于普通话数字人生成，精准解决了中文AI视频中常见的“唇形对不准”问题，并在保持英语生成能力的同时，实现了14.3%的推理速度提升。更值得称道的是，项目已将29小时专业视频数据集及核心代码在GitHub上开源，展现了极大的技术共享诚意。

让数字人真正会说中国话的核心技术

JoyHallo通过三大创新，实现了数字人表达的突破。

中式唇语精准合成：针对中文特有的韵母，采用半解耦神经网络结构，将唇部、表情与姿态特征分离处理再融合，使普通话唇动准确度高达95.7%。
跨语种无缝切换：基于中英双模态预训练，可在中文讲解与英文表达间流畅转换，生成过程自然无卡顿。
细节表现力增强：在特定场景下，数字人能自动呈现符合职业特征的手势与微表情，细节处理远超同类产品。

性能数据一览

普通话唇形准确度：95.7%
英语唇形准确度：91.2%
单语句推理时间：2.3秒（中）/ 2.7秒（英）
情感表现维度：支持8种微表情

开箱即用的AI视频制作流程

通过Hugging Face Demo，用户可以快速上手：

选择形象：从2男2女基础模型中挑选。
调整情感：拖动滑块设置愤怒、惊喜或严肃程度。
输入内容：支持中英文混合输入，系统自动识别。

生成一段30秒的普通话解说视频仅需约80秒，效率极具竞争力。

费用与服务模式

目前JoyHallo提供了灵活的使用方案：

社区版：完全免费，开源代码与基础模型可自由下载（需遵守GPL3.0协议）。
云端API：初期测试阶段，每小时生成时长可能有限制（如10分钟）。
企业定制：参考行业标准，可能按分钟计费，适合有深度定制需求的商业场景。

对于短视频创作者而言，结合智能内容工具，完全可以搭建一套自动化数字人生产线。

真实用户体验与评价

从实际应用反馈来看，JoyHallo在细节上表现突出：

光学细节真实：生成戴眼镜的数字人时，镜片反光会随头部转动自然变化。
中文歌词同步精准：在处理《青花瓷》等歌曲时，能准确匹配连音与转折。

目前模型库（如发型）仍在丰富中，但团队承诺会定期更新，未来可期。

数据统计

JoyHallo翻译站点

如何用JoyHallo重新定义数字人表达？

让数字人真正会说中国话的核心技术

性能数据一览

开箱即用的AI视频制作流程

费用与服务模式

真实用户体验与评价

数据统计

相关导航

VideoPoet

OpenVoice

Llama 3.2

MaskGCT

GPT-SoVITS

扣子Coze开发平台

ConsiStory

DDColor