一帧秒创
AI视频生成神器,文字转视频效率提升20倍
阿里巴巴智能计算实验室推出的MIMO系统,实现了在复杂3D场景中生成可控角色动态视频的突破。该系统仅需输入单人照片、动作序列及背景视频,即可自动生成流畅动画,并精准处理角色与场景的遮挡交互。
MIMO的创新核心在于其独特的三层空间分解架构:
结合单目深度估计构建3D模型,并通过扩散模型进行高清合成,该系统能够处理从真人到卡通角色的多样化内容,甚至支持野外采集的复杂动作数据。
在实际测试中,MIMO展现出显著优势:
例如在服装动态展示测试中,系统生成的布料摆动效果甚至超越了实物拍摄的自然度。
目前MIMO主要面向专业市场:
开源社区已基于其算法模块衍生出多项应用,包括工业质检、街景重建等跨领域工具。随着社区数据集的不断丰富,系统有望开放个性化训练功能,进一步降低使用门槛。
这项技术通过分层解耦的设计思路,为3D内容创作提供了新的生产范式,其影响正从专业领域逐步扩展至更广泛的应用生态中。