微软的VASA-1模型能够利用照片生成视频
人工智能生成视频已经成为现实,现在又有一家公司加入了这个行列:微软。显然,这家科技巨头已经开发出了一个生成式人工智能系统,可以从一张图片和一个音频剪辑中生成逼真的会说话的化身。这个工具被称为VASA-1,它不仅仅能模仿嘴部运动,还可以捕捉栩栩如生的表情,并产生看起来很自然的动作。
该系统允许用户修改主体的眼部运动、主体被感知的距离以及表达的情绪。VASA-1据说是一系列人工智能工具中的第一个模型,MSPowerUser报道称它可以生成特定的面部表情、高度同步嘴唇运动并产生类似人类的头部动作。
它可以提供广泛的情感选择,并产生面部细微的变化,这听起来可能是一个可怕的令人信服的结果。
VASA-1的工作原理及其功能
似乎是借鉴了人类3D动画师和建模师的工作方式,VASA-1使用了一种名为“解缠”的过程,允许系统独立控制和编辑面部表情、3D头部位置和面部特征,这就是VASA-1逼真度的力量所在。
正如你所想象的那样,这具有地震般的潜力,有可能完全改变我们对数字应用和界面的体验。根据MSPowerUser的说法,VASA-1可以制作出不同于它所受训练的视频。显然,该系统没有接受过艺术照片、歌声或非英语演讲的训练,但如果你要求制作其中一种视频,它会尽力而为。
微软研究人员赞扬了VASA-1的实时效率,称该系统可以以高帧率制作相当高分辨率的视频(512×512像素)。帧率,或每秒帧数(fps),是一组图像(称为帧)可以在一块媒体中连续捕获或显示的频率。研究人员声称, VASA-1可以在离线模式下生成45fps的视频,在线生成时为40fps。
你可以查看VASA-1的状态,并在微软专门为该项目设立的网页上了解更多相关信息。该网页上有几个演示,还包括下载相关信息的链接,最后还有一个名为“风险与负责任的人工智能考虑因素”的标题。
就像魔法一样,但这是奇迹咒语还是灾难配方?
在最后的反思部分,微软承认这样的工具有很大的误用范围,但研究人员试图强调VASA-1的潜在积极作用。他们没有错,像这样的技术可能意味着下一个层次的教育体验,比以往任何时候都多的学生可以获得更好的帮助,有沟通困难的人,提供陪伴的能力,以及改进的数字治疗支持。
所有这些都表明,忽视这种潜在的危害和不法行为是愚蠢的,微软确实声明,在确保“技术将被负责任地使用,并符合适当的法规”之前,它目前没有以任何形式向公众提供VASA-1的计划,如果微软坚持这种精神,我认为这可能是一个漫长的等待。
总的来说,我认为很难否认生成型AI视频工具将成为更常见技术的趋势,而它们充斥我们生活的倒计时已经开始。谷歌一直在开发类似的AI系统,名为VLOGGER,并且最近还发表了一篇论文,详细说明了VLOGGER如何仅凭一张照片就能生成逼真的、有人物动作、说话和手势的视频。
OpenAI最近也因推出自己的人工智能视频生成工具Sora而登上头条,Sora可以根据文本描述生成视频。 OpenAI解释了Sora在专用页面上的工作原理,并提供了令人印象深刻的演示,但也让更多人感到担忧。
我对这些创新将使我们能够做的事情保持警惕,我很高兴,就我们所知,这三种新工具都被严格保密。我认为,实际上,我们拥有的防止滥用这类技术的最佳防护栏是无懈可击的法规,但我怀疑所有政府都会及时采取这些措施。