智谱AI新发布：3D VAE 端到端视频理解能否引领行业革新？

时间：2024-07-26 来源：作者：keke

智谱 AI 在近期的技术革新中，推出了其视频生成模型的全新升级版本——CogVideoX，这一创新成果已在智谱清言的多个平台正式上线，包括PC端、移动应用及小程序，为广大用户带来了全新的AI视频创作体验。对于追求个性化、高效视频制作的C端用户而言，只需通过智谱清言的AI视频生成功能「清影」(Ying)，就能享受到从文本到视频、从图像到视频的自由转换服务。

CogVideoX的核心技术亮点，无疑为视频生成领域注入了新的活力。其自主研发的三维变分自编码器结构（3D VAE），不仅将原始视频数据压缩至原始大小的2%，显著降低了视频生成模型的训练成本与难度，更在时间维度上展现了对帧间关系的精准捕捉，建立起了视频中的长期依赖关系。结合3D RoPE位置编码模块，使得模型在处理复杂视频序列时，能够更加准确地理解和生成连贯的内容。

在可控性方面，智谱AI构建的端到端视频理解模型，不仅能够高效地为海量视频数据生成描述，而且增强了模型对文本的深度理解与指令执行能力。这不仅确保了生成视频的高质量与精确度，还能够灵活应对各种复杂的指令，无论是短小精悍还是长篇大论，都能准确无误地转化为生动的视频作品。

模型采用了融合文本、时间和空间维度的transformer架构，这种架构摒弃了传统的cross attention模块，引入了Expert Block来实现不同模态空间的精准对齐，同时通过Full Attention机制优化了模态间的交互效果，使得模型在处理多模态信息时，展现出更高的效率与准确性。

「清影」作为智谱AI的代表产品，不仅在生成速度上表现出色，能在短短30秒内完成6秒视频的生成，更在指令遵循能力、内容连贯性以及画面调度灵活性等方面实现了卓越表现。例如，它能够准确理解并执行复杂的指令，甚至在处理动态场景时，如镜头跟随画面中的多个移动对象，也能流畅自如。

此外，「清影」的API接口已部署在智谱大模型开放平台bigmodel.cn，为企业和开发者提供了便捷的接入方式，使他们能够利用「清影」的强大功能，探索更多视频生成的应用场景，推动AI技术在商业与创意领域的深入发展。

综上所述，智谱AI的这次技术创新，不仅展示了其在AI视频生成领域的领先地位，更为用户和开发者带来了前所未有的创作自由度与效率提升，标志着AI技术在内容创作领域的又一次飞跃。

更多推荐