2023 年 7 月更新:WAV2LIP 商业版

7 月 4 日我开始测试 WAV2LIP 商业版,效果堪称数字人直播领域的全球天花板。现在初步决定不进行商用,但好处不能不讲。使用体验更新如下。

流程:

    对着自己的脸拍一条几分钟的视频,找合作商生成自己的人脸模型。或不拍视频,使用合作商的通用人脸模型。自己录一条干净的录音,用 AI 生成”小帅小美“亦可。上传音频,点击合成,have fun。

优点:

    进行直播和短视频制作皆可,效果是目前已知最好的。如果表演者了解 WAV2LIP 的边界所在,那么片长一分钟以内的短片可以乱真,连我都看不太出来这是数字人。制作成本远低于我所知道的任何其它技术。渲染 1 分钟视频仅需 3 分钟显卡时间。支持声音输入,而不像某些大厂画蛇添足自作聪明,只能从文本中生成嘴型。完全由你的声音驱动。如果你的声音很有感染力,那这就是你的 IP 了。

缺点:

    闭源且需要个别沟通商业授权,极易被卡脖子。最怕的不是被禁运,而是开发者倒闭,导致创作者的 IP 就地蒸发(concert creator 倒闭/ 网易天音闭站殷鉴不远,没听过的同学建议八卦下)。商业授权的模式极为复杂,导致私炉炼丹几乎不可能。拿自己的人脸去训练先要呈递给客服,相当于发个 email 还要打印后转交给警卫员。用预设的通用人物完全无需训练,然而你就永远无法做出 IP 了,相当于为他人做嫁衣裳。人物动作和表情是预先拍摄好的罐头素材,能换的只有唇部动作。很正经地讲新闻没问题;至于讲笑话的效果嘛,怎么说呢,视频本身就相当搞笑。完全由你的声音驱动。如果你的音质是负分就完犊子了。另外录音质量也有影响,背景音乐或嘈杂会导致数字人的嘴部乱动。

瑕不掩瑜。这仍是我至今为止唯一”半推荐“的方向。半推荐的意思是:向部分人有保留地推荐。如果你是小成本视频制作者,估计做条视频出来也没啥人看,就图一乐,或者想记录点什么,那 WAV2LIP 商业版还是值得考虑的方向。但如果你是专业制作者,建议你还是另觅他途,乱拍一条小成本的视频会严重浪费你写口播稿的时间。

换嘴 AI 的潜在商业价值

将口播换成录音,门槛的降低是显而易见的。拍过口播视频的人都知道,对着镜头容易紧张,没有提词器容易头脑卡壳。全世界最简单的口播当然是对着稿子用口头语读一遍,但这种口播的视觉效果负分。

WAV2LIP 等一众换嘴 AI 相当于用负分视频的成本和门槛在做普通视频。这对于工作流的改变是革命性的,只是作品的感染力还很差。

它可以让原来毫无还手之力的草根制作者拥有过得去的制作能力,但对于本来就像那么回事的专业 Youtuber 来说其实是在自降格调。目前来说,它只适合用来做营销号。

简答

哪个都不靠谱,简答完毕。

以下技术代表了 2023 年 5 月初的最高水平,你将就着看吧。

SD 跳舞视频

Stable Diffusion 作为目前唯一可以生成高质量连续帧的“准动画” AI,可以有限地用于娱乐,但还是没法拿来赚钱。

目前 SD 存在三个严重问题:

    闪烁,画面不能做到 100% 连续。无法自行生成,只能针对另一个视频进行重绘。生成极其迟缓,A5000 显卡下高清视频的渲染速度约为视频本身长度的 500 倍。(生成一小时内容的成本不低于 1000 元,想开个无人直播躺赚的话请三思)

由于 SD 动画的诸多弊端,所以现在的玩法都是生成几十秒的跳舞视频,靠高速移动来掩饰闪烁,靠超短时长来降低成本。这类内容在 B 站和小红书上超多。

但如果让 SD 生成一个虚拟主播坐在摄像机前带货,ta 的脸会一直闪,还会以每四秒一元的速度烧钱。

D-ID 或 SadTalker 生成站立对话胸像

实在不行也可以用 D-ID 做俩人杵着对话。一逗一捧是不可能了,但至少可以把内容表述完整。

这方面技术效果最好的是微信视频号 AI.Talk,出过几个爆款,暂无变现方式。

但 D-ID 的成本同样不低,单人大约是每小时 120 美元,双人至少 × 2。如果你对生成结果不满意,已生成的影像也一律不退款,需要你自己掏钱再生成。

如果想省钱,又对自己的技术很有信心,可以考虑开源平替版本 SadTalker。不过这个开源项目还很不成熟,画面鬼畜,只能用来搞笑。

DeepFake 相关技术

本技术简单粗暴,就是换脸。用来做短视频或直播都很容易,微信上面一堆小视频号和直播号在搞这个。直播流量很低,但小视频十万点赞的已经很多了。

但是注意,这不是数字人直播。它的背后需要有人类演员,也需要完整的背景,甚至还需要相对完美的打光。总之,它只能把你的脸给换了,其余整个画面和声音都是原来的。想要让它自行直播,让主人躺赚,那显然是不可能的。而寻找靠谱的人来扮演 AI 背后的人,并不容易,也并不便宜。这种技术相对于传统视频和直播并无明显优势。

另外还要考虑技术新旧的问题。DeepFake 的原理是生成式对抗网络,和 2023 年 AI 画图的原理完全不同,算是一种过时技术,过去两年没有大更新了。选择这种技术的弊端是显而易见的,它只能换脸,而且未来恐怕也不会有什么改善。但反过来你也可以这么想:年少不知师姐好,过时技术也散发着一种成熟的魅力。和现在所有的前沿技术比起来,DeepFake 以假乱真的程度是碾压的。它甚至还有一个 Deep Face Live 的分支,可以用于低质量的直播。

目前微信小视频上面做 DeepFake 方向的,十有八九是在“吃 AI 的饭,砸 AI 的锅”。一群刚学会换脸的小营销号,每天主题就是表演换脸,然后散布恐慌,告诉观众 AI 太可怕了,最终落脚点都是“国家早该管管”。对于此事,我的看法很简单:AI 没他们吹的那么神,但也远远超过了政府的监管能力。总有女生担心自己的脸被人拍下来之后拿去做 AI AV,呵,她们不仅高估了 AI,也高估了自己那张脸。墙外一堆专业网站在做这个,用的都是美若天仙的演艺圈小花。说句不正确的大实话:训练你的人脸模型,和训练迪丽热巴老师的人脸模型,成本并无差别,就你长成这样又没流量,不花钱还想我免费帮你做个脸?

还有微信上的 DeepFake 直播,十有八九是卖课的。把开源软件下下来,再 238 一套卖给观众。这波操作相当内行。

墙内的 DeepFake 生态相当糟糕,墙外倒是真有这个产业。不过如果真的要卷出去,内卷路上的对家也茫茫多。TikTok 上面一堆换脸特效大 V,源源不断地贡献着优质短视频,有个模仿阿汤哥的已经可以做到摘眼镜不穿帮、手指在脸上滑动——做过 AI 的都知道这有多难。我估计他后期编辑了很多,不太可能是 AI 一气呵成的。更庞大的市场在百度搜不到的地方,也就是上面说到的 AI AV 网站,里面各色华人女星也是应有尽有——如果在上面搜不到,说明她还不够红。亚洲人里换脸量排名第一的是周子瑜,真是软实力。

动捕+面捕+3D 人

这跟 AI 没关系,纯粹是个 3D 动画片玩法。在暗场、动作简单的情况下,勉强可以逼近真人。

目前一套入门级动捕设备 8 万;一套定制版 3D 人模型 20 万,换衣服另计。二者合计,做一个人需要 28 万,两个人需要 48 万……余此类推,量大未必从优。但这只是入门款,和真人有辽阔的差距,超写实的最好准备 300 万。

不建议购买那些 2 万的动捕设备,否则模型可能永远处于骨折状态。

想知道目前墙内非定制版的最高级水平,可以看看“赛博演猿”。他们那个还真的可以做直播,至于效果嘛,公道自在人心。如果那个你都不满意,恐怕数字人直播就真的不适合你了。

顺便一说,这个不是新技术。如果你竟然需要从我这里看科普,说明真是没做起来。

小总结

截至 2023 年 5 月,题主你的需求恐怕很难被满足。这不是你的错,是世界还没赶上你的思路。

前几年 IT 从业者是很苦逼的,整个世界跟静止了一样,我都去合成生物学公司里帮了四年的忙,看看有多少产业交叉的机会。如果你强行要求数字人去直播,也会发现这个领域已经静止了好几年。你还没陷入这个泥潭,没必要像那些已经身不由己的人一样,去做一些明知不可为的事。关于这个故事,我在后面附录里说吧。

一些其它提醒

    看题主应该不是技术出身,所以还是友情提醒下:以上绝大多数项目都不适合 IT 小白。除 D-ID 外,部署其它程序全都需要专业 IT 知识。除 DeepFake 外,其它技术目前没发现有赚钱的。如果你非要投资这些领域,权当知识付费。除 DeepFake 外,其它技术只能输出异步视频,不能用于直播。目前没有任何同步直播技术可以输出以假乱真的数字人。截至 2023 年 5 月初,全球最先进的技术也只能做到让人类演员先表演一次、朗读一次,然后再用 AI 换画面、换音色。AI 直播缺的不是某一环,而是每一环。除照片生成领域外,目前所有 AI 都无法凭空生成仿真内容,全都需要人类介入。LLM 无法生成演讲稿,OpenPose 无法生成连续动作,T2V 也无法生成抑扬顿挫。因此,让一个假人在无人值守的情况下自行直播,电费都赚不回来,还会被所有平台限流(大概每小时只给你导入 2 个用户)。以上我使用了不多的几个入门级术语,目的是劝退。如果你连这些都没听过,部署 AI 视频生成系统显然超纲了。

如果到这里你还能坚持,那就继续吧。随心所行即为正路,愿小小的幸运偶尔光顾你。

附录:一个骗局

今天我惊喜地发现,沉寂已久的假数字人又活过来了。是的,这些数字人都是假的,其实他们是真人。

自从 ChatGPT 今年二月走红,假 AI 就没断过。二月份大家还比较遮掩,只是伪造 ChatGPT 出丑的对话,写弱智段子蹭流量。现在则是赤裸裸地诈骗了,他们拍下自己的真人视频,然后说这就是 AI 生成的。

他们甚至还开发出了一种“AI 模型训练技术”,通俗地说就是绿幕抠像。他们骗用户拍一段自己的视频,换个背景就去报喜:“恭喜你终于拥有了自己的专属数字形象!”

目的

这么做的唯一目的就是骗钱。

行规是 8 千块钱一套卖给用户做“专属数字形象”。骗子告诉韭菜们,只要买了这套东西,就可以无人值守去做带货直播,躺着都能赚钱。

无独有偶

这种骗局一点都不新鲜。

以我不专业的观察,至少在 2015 年就出现了“活人假扮 AI”的骗术。

那时候股灾,基金经理成了过街老鼠,指数才是宠儿。这没办法,毕竟只有大盘指数基金才能永远不输给大盘指数,这是个循环论证。

很多基金经理顺势摇身一变,就当上了量化交易的大神。建立一个新指数基金很简单,等比例买入 5 只指数基金,就能合成一只新指数基金。而赚钱的方法更简单,买 5 只手续费 0.8% 的基金,再以 1.2% 的手续费卖出去就行了。

今年 ChatGPT 破圈,只是让韭菜丰产技术顺势蔓延到了 AI 圈,但并没有什么新东西。

段子总结

总之,人工智能在彻底改变世界之前,又被世界彻底改变了一次。

潮流的尽头是复古,历朝历代骗钱的原理都差不多。虚构一个不劳而获的人,去忽悠一群想不劳而获的人,最终养活一群真正不劳而获的人,AIGC 的第一桶金也是这么挖出来的。

这都是哪来的妖魔鬼怪?

顺便一说,这群假数字人贩子,大多数都是搞元宇宙出身的。

那个圈子的人,真正的 IT 老炮都敬而远之。他们有个习惯,年年都是元年。你要是听不懂这个梗,以后还要挨坑的。

他们 2015 年吹 HTML5,2016 年吹比特币,2017 年吹 AGI,2018 年吹 VR,2019 年吹元宇宙,疫情三年没法搞峰会,纯线上吹 Web3 没吹起来,现在刚放出来又重操旧业。

但凡跟他们吃过一顿饭,题主你都问不出这个问题。

全文完。