智谱AI新发布:3D VAE 端到端视频理解能否引领行业革新?
智谱 AI 在近期的技术革新中,推出了其视频生成模型的全新升级版本——CogVideoX,这一创新成果已在智谱清言的多个平台正式上线,包括PC端、移动应用及小程序,为广大用户带来了全新的AI视频创作体验。对于追求个性化、高效视频制作的C端用户而言,只需通过智谱清言的AI视频生成功能「清影」(Ying),就能享受到从文本到视频、从图像到视频的自由转换服务。
CogVideoX的核心技术亮点,无疑为视频生成领域注入了新的活力。其自主研发的三维变分自编码器结构(3D VAE),不仅将原始视频数据压缩至原始大小的2%,显著降低了视频生成模型的训练成本与难度,更在时间维度上展现了对帧间关系的精准捕捉,建立起了视频中的长期依赖关系。结合3D RoPE位置编码模块,使得模型在处理复杂视频序列时,能够更加准确地理解和生成连贯的内容。
在可控性方面,智谱AI构建的端到端视频理解模型,不仅能够高效地为海量视频数据生成描述,而且增强了模型对文本的深度理解与指令执行能力。这不仅确保了生成视频的高质量与精确度,还能够灵活应对各种复杂的指令,无论是短小精悍还是长篇大论,都能准确无误地转化为生动的视频作品。
模型采用了融合文本、时间和空间维度的transformer架构,这种架构摒弃了传统的cross attention模块,引入了Expert Block来实现不同模态空间的精准对齐,同时通过Full Attention机制优化了模态间的交互效果,使得模型在处理多模态信息时,展现出更高的效率与准确性。
「清影」作为智谱AI的代表产品,不仅在生成速度上表现出色,能在短短30秒内完成6秒视频的生成,更在指令遵循能力、内容连贯性以及画面调度灵活性等方面实现了卓越表现。例如,它能够准确理解并执行复杂的指令,甚至在处理动态场景时,如镜头跟随画面中的多个移动对象,也能流畅自如。
此外,「清影」的API接口已部署在智谱大模型开放平台bigmodel.cn,为企业和开发者提供了便捷的接入方式,使他们能够利用「清影」的强大功能,探索更多视频生成的应用场景,推动AI技术在商业与创意领域的深入发展。
综上所述,智谱AI的这次技术创新,不仅展示了其在AI视频生成领域的领先地位,更为用户和开发者带来了前所未有的创作自由度与效率提升,标志着AI技术在内容创作领域的又一次飞跃。