微软发布VASA-1，让人物图片和声音合成视频更加逼真

更新时间：2024-04-21 14:41:21作者：ruihaifu

喜欢刷小视频的朋友都知道，现在有这样一类小视频比较火，统称为“古画会唱歌”。

其表现形式和制作方式是找一幅古代名人的肖像画，然后利用人工智能，让古人的脸，眉毛和嘴等面部表情和谐地动起来，然后再找一首流行歌曲，对口型。最终的视频成品看起来是某个古人在唱歌（或者说话），表情还比较自然，非常有趣，很多朋友都特别喜欢看。

很多朋友感兴趣这个视频是怎么制作的、需要使用什么软件？不过，这类软件大部分要收费，而且水平参差不齐，下面小编向大家介绍一个重量级玩家微软所推出的类似应用。

微软称之为“VASA-1”，英文全称是“Lifelike Audio-Driven Talking Faces Generated in Real Time”，中文翻译（非微软官方译文）是基于语音的逼真人物面部表情生成框架。该项目综合采用静态图像、语音音频剪辑和视觉情感技能技术，还需要在基于人物整体面部动力学的头部运动，来生成建立模型。

只要用户上传一张本人的照片和声音，VASA-1框架就可以自动生成一段基于本人照片的说话的视频，其面部表情（包括眉毛和嘴唇等等）都非常和谐自然、惟妙惟肖。

VASA-1不仅能够制作出各种逼真、协调和自然的与音频同步的嘴唇动作，而且还能够生成大量的面部细微差别和自然的头部动作。支持以高达40 FPS的速度在线生成512x512视频，启动延迟可以忽略不计。

并且，还不受时间限制，可以处理任意长度的音频，可以实现、达到类似真人直播的效果，非常适合用来做虚拟数字人直播，——相信近期很多朋友都已经看过刘强东的数字分身直播。

关于VASA-1的实际效果，请观看本文中的视频，这些视频均转载、来自于微软官方所公布的演示，本文段落前面那个视频是根据名画蒙娜丽莎所制作的，非常有趣。

看到这里，有些朋友可能迫不及待地想知道微软VASA-1否已经开放？是否免费？想在第一时间体验。实际情况没有大家想得那么乐观，因为这个项目不纯粹是技术问题，还会牵涉到众多的伦理和法律的问题，微软的态度非常偏保守、谨慎。

如果这项技术仅用于娱乐、在符合视频平台各项规定且明确告知观众为人工智能所制作的虚拟视频的情况下，会对社会起到一定的正面意义。

但是，这项技术也有被滥用的可能性和风险，甚至可能被用来针对某个真人制作伪造视频，用于冒充或者诈骗等等。由于最终制作出来的视频仿真度很高，普通人难以辨别，因此该技术可能给社会带来的负面影响也会非常严重。

综上所述，目前微软对这项技术的态度非常保守、谨慎，微软强调“反对利用该技术，依据任何真人制作虚假的、具有误导性的或有害的内容”。

微软并表示：“在这种情况下，我们不打算公布有关VASA-1项目的更多在线演示、API、产品、其它技术细节或任何相关产品。直到我们确定该技术可以合规、被负责任地使用。”

也就是说，现阶段普通用户无法体验该技术，比较遗憾，不过，有兴趣的朋友可登录微软官网了解更多详情。

微软发布VASA-1，让人物图片和声音合成视频更加逼真

微软发布VASA-1，让人物图片和声音合成视频更加逼真相关教程

热门推荐