微软的VASA-1模型能够利用照片生成视频

时间：2024-04-22 来源：未知作者：Gushan

人工智能生成视频已经成为现实，现在又有一家公司加入了这个行列：微软。显然，这家科技巨头已经开发出了一个生成式人工智能系统，可以从一张图片和一个音频剪辑中生成逼真的会说话的化身。这个工具被称为VASA-1，它不仅仅能模仿嘴部运动，还可以捕捉栩栩如生的表情，并产生看起来很自然的动作。

该系统允许用户修改主体的眼部运动、主体被感知的距离以及表达的情绪。VASA-1据说是一系列人工智能工具中的第一个模型，MSPowerUser报道称它可以生成特定的面部表情、高度同步嘴唇运动并产生类似人类的头部动作。

它可以提供广泛的情感选择，并产生面部细微的变化，这听起来可能是一个可怕的令人信服的结果。

VASA-1的工作原理及其功能

似乎是借鉴了人类3D动画师和建模师的工作方式，VASA-1使用了一种名为“解缠”的过程，允许系统独立控制和编辑面部表情、3D头部位置和面部特征，这就是VASA-1逼真度的力量所在。

正如你所想象的那样，这具有地震般的潜力，有可能完全改变我们对数字应用和界面的体验。根据MSPowerUser的说法，VASA-1可以制作出不同于它所受训练的视频。显然，该系统没有接受过艺术照片、歌声或非英语演讲的训练，但如果你要求制作其中一种视频，它会尽力而为。

微软研究人员赞扬了VASA-1的实时效率，称该系统可以以高帧率制作相当高分辨率的视频(512×512像素)。帧率，或每秒帧数(fps)，是一组图像(称为帧)可以在一块媒体中连续捕获或显示的频率。研究人员声称， VASA-1可以在离线模式下生成45fps的视频，在线生成时为40fps。

你可以查看VASA-1的状态，并在微软专门为该项目设立的网页上了解更多相关信息。该网页上有几个演示，还包括下载相关信息的链接，最后还有一个名为“风险与负责任的人工智能考虑因素”的标题。

在最后的反思部分，微软承认这样的工具有很大的误用范围，但研究人员试图强调VASA-1的潜在积极作用。他们没有错，像这样的技术可能意味着下一个层次的教育体验，比以往任何时候都多的学生可以获得更好的帮助，有沟通困难的人，提供陪伴的能力，以及改进的数字治疗支持。

所有这些都表明，忽视这种潜在的危害和不法行为是愚蠢的，微软确实声明，在确保“技术将被负责任地使用，并符合适当的法规”之前，它目前没有以任何形式向公众提供VASA-1的计划，如果微软坚持这种精神，我认为这可能是一个漫长的等待。

总的来说，我认为很难否认生成型AI视频工具将成为更常见技术的趋势，而它们充斥我们生活的倒计时已经开始。谷歌一直在开发类似的AI系统，名为VLOGGER，并且最近还发表了一篇论文，详细说明了VLOGGER如何仅凭一张照片就能生成逼真的、有人物动作、说话和手势的视频。

OpenAI最近也因推出自己的人工智能视频生成工具Sora而登上头条，Sora可以根据文本描述生成视频。 OpenAI解释了Sora在专用页面上的工作原理，并提供了令人印象深刻的演示，但也让更多人感到担忧。

我对这些创新将使我们能够做的事情保持警惕，我很高兴，就我们所知，这三种新工具都被严格保密。我认为，实际上，我们拥有的防止滥用这类技术的最佳防护栏是无懈可击的法规，但我怀疑所有政府都会及时采取这些措施。

更多推荐