阿里发布AI模型EMO,让网友从此不再“emo”

NO.571

作者:科技回旋镖

校稿:程程 / 编辑:致知

AI领域真是越来越热闹了,让人应接不暇。近日,阿里巴巴发布了一款生成式AI模型,名字叫EMO,听起来有点奇怪,但是玩起来还真有点东西。只需要一张照片和一段音频,就能生成一段说话唱歌类型的视频。操作比较简单,而且视频时长没有限制。根据视频案例,EMO生成的视频,动态、表情都十分逼真,让很多用户玩的不亦乐乎。

2月底,阿里巴巴发布了自己的AI最新成果,EMO(Emote Portrait Alive)框架。这是由阿里巴巴智能计算研究院开发的创新框架。和其它AI框架不同的是,EMO主要功能是通过音频,来驱动生成富有表现力的肖像视频。

500

其最大的不同在于其视频合成方法。目前行业主流AI视频合成技术是通过3D模型或者面部标记的办法来驱动视频。

而EMO的合成方式则比较复杂。从图片和音频合成到视频,这中间使用了多项复杂的技术。比如,音频驱动的视频生成技术,直接从给定的图像和音频剪辑合成角色头部视频。

比较重要的一项技术是稳定性控制机制。很多AI合成视频一眼就能看出来,因为面部表情僵硬,和语言动作根本不匹配。而EMO引入了速度控制器和面部区域控制器,可以把控面部微表情,使得视频更具有表现力。观看网友制作的视频,视频人物在唱歌时还可以根据歌曲的情感变化而出现面部表情的细腻变化,非常传神。

500

浏览了其他网友通过EMO制作的AI视频,非常好玩。有网友复活了自己的偶像,有网友将教材上的历史人物也复活了,有很多搞怪视频,大家玩的不亦乐乎。网友戏言,有了EMO,从此不再emo。

500

但是EMO网页是全英文网站,使用网页翻译后,语言怪怪的。有英文比较好的,可以尝试去玩一把。网页入口可以点击这里或复制网址打开:https://humanaigc.github.io/emote-portrait-alive/

当然,这个EMO还只是一个文生拟真视频,只不过是做的更流畅和逼真,逻辑上,跟Sora还是有天壤之别。

这几年,阿里在AI上可是花重金,下了大功夫的。看看EMO网页上关于该项目背后团队的介绍就知道,阿里在EMO上是烧了不少经费的。

500

早在去年,阿里CEO吴泳铭就提出了“AI驱动、公共云优先”的战略,目标就是要为各行业提供高效稳定的AI基础设施。阿里在去年推出了多个AI产品,比如语言大模型通义千问、淘宝面向C端客户的AI导购淘宝问问、绘画大模型通义万相、AI写真工具妙鸭相机等等。

目前,各大互联网公司推出的AI产品真是应接不暇,AI已经在互联网无处不在。

除了百度,字节旗下的剪映等工具也推出了诸多AI功能。

但是,文生视频AI工具的大量使用,也引发了诸多担忧。主要是一个老生常谈的问题,肖像权和诈骗问题。

用户只需要上传照片和音频就可以生成流畅的视频,很容易涉及肖像权问题。这个问题已经屡见不鲜了,甚至已经有多起判例。另外就是,不少网友担心诈骗的问题。AI生成技术的提高,是不是鉴别AI的技术也要提高呢?

最后,提醒一下各位,目前EMO还没有开源,玩玩就好,防止被骗。

全部专栏