想用数字人做直播，现在哪家公司的数字人比较靠谱？

2023 年 7 月更新：WAV2LIP 商业版

7 月 4 日我开始测试 WAV2LIP 商业版，效果堪称数字人直播领域的全球天花板。现在初步决定不进行商用，但好处不能不讲。使用体验更新如下。

流程：

对着自己的脸拍一条几分钟的视频，找合作商生成自己的人脸模型。或不拍视频，使用合作商的通用人脸模型。自己录一条干净的录音，用 AI 生成”小帅小美“亦可。上传音频，点击合成，have fun。

优点：

进行直播和短视频制作皆可，效果是目前已知最好的。如果表演者了解 WAV2LIP 的边界所在，那么片长一分钟以内的短片可以乱真，连我都看不太出来这是数字人。制作成本远低于我所知道的任何其它技术。渲染 1 分钟视频仅需 3 分钟显卡时间。支持声音输入，而不像某些大厂画蛇添足自作聪明，只能从文本中生成嘴型。完全由你的声音驱动。如果你的声音很有感染力，那这就是你的 IP 了。

缺点：

闭源且需要个别沟通商业授权，极易被卡脖子。最怕的不是被禁运，而是开发者倒闭，导致创作者的 IP 就地蒸发（concert creator 倒闭/ 网易天音闭站殷鉴不远，没听过的同学建议八卦下）。商业授权的模式极为复杂，导致私炉炼丹几乎不可能。拿自己的人脸去训练先要呈递给客服，相当于发个 email 还要打印后转交给警卫员。用预设的通用人物完全无需训练，然而你就永远无法做出 IP 了，相当于为他人做嫁衣裳。人物动作和表情是预先拍摄好的罐头素材，能换的只有唇部动作。很正经地讲新闻没问题；至于讲笑话的效果嘛，怎么说呢，视频本身就相当搞笑。完全由你的声音驱动。如果你的音质是负分就完犊子了。另外录音质量也有影响，背景音乐或嘈杂会导致数字人的嘴部乱动。

瑕不掩瑜。这仍是我至今为止唯一”半推荐“的方向。半推荐的意思是：向部分人有保留地推荐。如果你是小成本视频制作者，估计做条视频出来也没啥人看，就图一乐，或者想记录点什么，那 WAV2LIP 商业版还是值得考虑的方向。但如果你是专业制作者，建议你还是另觅他途，乱拍一条小成本的视频会严重浪费你写口播稿的时间。

换嘴 AI 的潜在商业价值

将口播换成录音，门槛的降低是显而易见的。拍过口播视频的人都知道，对着镜头容易紧张，没有提词器容易头脑卡壳。全世界最简单的口播当然是对着稿子用口头语读一遍，但这种口播的视觉效果负分。

WAV2LIP 等一众换嘴 AI 相当于用负分视频的成本和门槛在做普通视频。这对于工作流的改变是革命性的，只是作品的感染力还很差。

它可以让原来毫无还手之力的草根制作者拥有过得去的制作能力，但对于本来就像那么回事的专业 Youtuber 来说其实是在自降格调。目前来说，它只适合用来做营销号。

简答

哪个都不靠谱，简答完毕。

以下技术代表了 2023 年 5 月初的最高水平，你将就着看吧。

SD 跳舞视频

Stable Diffusion 作为目前唯一可以生成高质量连续帧的“准动画” AI，可以有限地用于娱乐，但还是没法拿来赚钱。

目前 SD 存在三个严重问题：

闪烁，画面不能做到 100% 连续。无法自行生成，只能针对另一个视频进行重绘。生成极其迟缓，A5000 显卡下高清视频的渲染速度约为视频本身长度的 500 倍。（生成一小时内容的成本不低于 1000 元，想开个无人直播躺赚的话请三思）

由于 SD 动画的诸多弊端，所以现在的玩法都是生成几十秒的跳舞视频，靠高速移动来掩饰闪烁，靠超短时长来降低成本。这类内容在 B 站和小红书上超多。

但如果让 SD 生成一个虚拟主播坐在摄像机前带货，ta 的脸会一直闪，还会以每四秒一元的速度烧钱。

D-ID 或 SadTalker 生成站立对话胸像

实在不行也可以用 D-ID 做俩人杵着对话。一逗一捧是不可能了，但至少可以把内容表述完整。

这方面技术效果最好的是微信视频号 AI.Talk，出过几个爆款，暂无变现方式。

但 D-ID 的成本同样不低，单人大约是每小时 120 美元，双人至少 × 2。如果你对生成结果不满意，已生成的影像也一律不退款，需要你自己掏钱再生成。

如果想省钱，又对自己的技术很有信心，可以考虑开源平替版本 SadTalker。不过这个开源项目还很不成熟，画面鬼畜，只能用来搞笑。

DeepFake 相关技术

本技术简单粗暴，就是换脸。用来做短视频或直播都很容易，微信上面一堆小视频号和直播号在搞这个。直播流量很低，但小视频十万点赞的已经很多了。

但是注意，这不是数字人直播。它的背后需要有人类演员，也需要完整的背景，甚至还需要相对完美的打光。总之，它只能把你的脸给换了，其余整个画面和声音都是原来的。想要让它自行直播，让主人躺赚，那显然是不可能的。而寻找靠谱的人来扮演 AI 背后的人，并不容易，也并不便宜。这种技术相对于传统视频和直播并无明显优势。

另外还要考虑技术新旧的问题。DeepFake 的原理是生成式对抗网络，和 2023 年 AI 画图的原理完全不同，算是一种过时技术，过去两年没有大更新了。选择这种技术的弊端是显而易见的，它只能换脸，而且未来恐怕也不会有什么改善。但反过来你也可以这么想：年少不知师姐好，过时技术也散发着一种成熟的魅力。和现在所有的前沿技术比起来，DeepFake 以假乱真的程度是碾压的。它甚至还有一个 Deep Face Live 的分支，可以用于低质量的直播。

目前微信小视频上面做 DeepFake 方向的，十有八九是在“吃 AI 的饭，砸 AI 的锅”。一群刚学会换脸的小营销号，每天主题就是表演换脸，然后散布恐慌，告诉观众 AI 太可怕了，最终落脚点都是“国家早该管管”。对于此事，我的看法很简单：AI 没他们吹的那么神，但也远远超过了政府的监管能力。总有女生担心自己的脸被人拍下来之后拿去做 AI AV，呵，她们不仅高估了 AI，也高估了自己那张脸。墙外一堆专业网站在做这个，用的都是美若天仙的演艺圈小花。说句不正确的大实话：训练你的人脸模型，和训练迪丽热巴老师的人脸模型，成本并无差别，就你长成这样又没流量，不花钱还想我免费帮你做个脸？

还有微信上的 DeepFake 直播，十有八九是卖课的。把开源软件下下来，再 238 一套卖给观众。这波操作相当内行。

墙内的 DeepFake 生态相当糟糕，墙外倒是真有这个产业。不过如果真的要卷出去，内卷路上的对家也茫茫多。TikTok 上面一堆换脸特效大 V，源源不断地贡献着优质短视频，有个模仿阿汤哥的已经可以做到摘眼镜不穿帮、手指在脸上滑动——做过 AI 的都知道这有多难。我估计他后期编辑了很多，不太可能是 AI 一气呵成的。更庞大的市场在百度搜不到的地方，也就是上面说到的 AI AV 网站，里面各色华人女星也是应有尽有——如果在上面搜不到，说明她还不够红。亚洲人里换脸量排名第一的是周子瑜，真是软实力。

动捕+面捕+3D 人

这跟 AI 没关系，纯粹是个 3D 动画片玩法。在暗场、动作简单的情况下，勉强可以逼近真人。

目前一套入门级动捕设备 8 万；一套定制版 3D 人模型 20 万，换衣服另计。二者合计，做一个人需要 28 万，两个人需要 48 万……余此类推，量大未必从优。但这只是入门款，和真人有辽阔的差距，超写实的最好准备 300 万。

不建议购买那些 2 万的动捕设备，否则模型可能永远处于骨折状态。

想知道目前墙内非定制版的最高级水平，可以看看“赛博演猿”。他们那个还真的可以做直播，至于效果嘛，公道自在人心。如果那个你都不满意，恐怕数字人直播就真的不适合你了。

顺便一说，这个不是新技术。如果你竟然需要从我这里看科普，说明真是没做起来。

小总结

截至 2023 年 5 月，题主你的需求恐怕很难被满足。这不是你的错，是世界还没赶上你的思路。

前几年 IT 从业者是很苦逼的，整个世界跟静止了一样，我都去合成生物学公司里帮了四年的忙，看看有多少产业交叉的机会。如果你强行要求数字人去直播，也会发现这个领域已经静止了好几年。你还没陷入这个泥潭，没必要像那些已经身不由己的人一样，去做一些明知不可为的事。关于这个故事，我在后面附录里说吧。

一些其它提醒

看题主应该不是技术出身，所以还是友情提醒下：以上绝大多数项目都不适合 IT 小白。除 D-ID 外，部署其它程序全都需要专业 IT 知识。除 DeepFake 外，其它技术目前没发现有赚钱的。如果你非要投资这些领域，权当知识付费。除 DeepFake 外，其它技术只能输出异步视频，不能用于直播。目前没有任何同步直播技术可以输出以假乱真的数字人。截至 2023 年 5 月初，全球最先进的技术也只能做到让人类演员先表演一次、朗读一次，然后再用 AI 换画面、换音色。AI 直播缺的不是某一环，而是每一环。除照片生成领域外，目前所有 AI 都无法凭空生成仿真内容，全都需要人类介入。LLM 无法生成演讲稿，OpenPose 无法生成连续动作，T2V 也无法生成抑扬顿挫。因此，让一个假人在无人值守的情况下自行直播，电费都赚不回来，还会被所有平台限流（大概每小时只给你导入 2 个用户）。以上我使用了不多的几个入门级术语，目的是劝退。如果你连这些都没听过，部署 AI 视频生成系统显然超纲了。

如果到这里你还能坚持，那就继续吧。随心所行即为正路，愿小小的幸运偶尔光顾你。

附录：一个骗局

今天我惊喜地发现，沉寂已久的假数字人又活过来了。是的，这些数字人都是假的，其实他们是真人。

自从 ChatGPT 今年二月走红，假 AI 就没断过。二月份大家还比较遮掩，只是伪造 ChatGPT 出丑的对话，写弱智段子蹭流量。现在则是赤裸裸地诈骗了，他们拍下自己的真人视频，然后说这就是 AI 生成的。

他们甚至还开发出了一种“AI 模型训练技术”，通俗地说就是绿幕抠像。他们骗用户拍一段自己的视频，换个背景就去报喜：“恭喜你终于拥有了自己的专属数字形象！”

目的

这么做的唯一目的就是骗钱。

行规是 8 千块钱一套卖给用户做“专属数字形象”。骗子告诉韭菜们，只要买了这套东西，就可以无人值守去做带货直播，躺着都能赚钱。

无独有偶

这种骗局一点都不新鲜。

以我不专业的观察，至少在 2015 年就出现了“活人假扮 AI”的骗术。

那时候股灾，基金经理成了过街老鼠，指数才是宠儿。这没办法，毕竟只有大盘指数基金才能永远不输给大盘指数，这是个循环论证。

很多基金经理顺势摇身一变，就当上了量化交易的大神。建立一个新指数基金很简单，等比例买入 5 只指数基金，就能合成一只新指数基金。而赚钱的方法更简单，买 5 只手续费 0.8% 的基金，再以 1.2% 的手续费卖出去就行了。

今年 ChatGPT 破圈，只是让韭菜丰产技术顺势蔓延到了 AI 圈，但并没有什么新东西。

段子总结

总之，人工智能在彻底改变世界之前，又被世界彻底改变了一次。

潮流的尽头是复古，历朝历代骗钱的原理都差不多。虚构一个不劳而获的人，去忽悠一群想不劳而获的人，最终养活一群真正不劳而获的人，AIGC 的第一桶金也是这么挖出来的。

这都是哪来的妖魔鬼怪？

顺便一说，这群假数字人贩子，大多数都是搞元宇宙出身的。

那个圈子的人，真正的 IT 老炮都敬而远之。他们有个习惯，年年都是元年。你要是听不懂这个梗，以后还要挨坑的。

他们 2015 年吹 HTML5，2016 年吹比特币，2017 年吹 AGI，2018 年吹 VR，2019 年吹元宇宙，疫情三年没法搞峰会，纯线上吹 Web3 没吹起来，现在刚放出来又重操旧业。

但凡跟他们吃过一顿饭，题主你都问不出这个问题。

全文完。

想用数字人做直播，现在哪家公司的数字人比较靠谱？

2023 年 7 月更新：WAV2LIP 商业版

流程：

优点：

缺点：

换嘴 AI 的潜在商业价值

简答

SD 跳舞视频

D-ID 或 SadTalker 生成站立对话胸像

DeepFake 相关技术

动捕+面捕+3D 人

小总结

一些其它提醒

附录：一个骗局

目的

无独有偶

段子总结

这都是哪来的妖魔鬼怪？

DeepSeekV3安卓2025最新版 v1.2.7官方版

DeepSeek官网最新版

DeepSeek下载安卓正版v1.3.1安卓免费版

国产大模型DeepSeek

爆火的DeepSeek

deepseekv3怎么用

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

deepseek手机版安卓2025最新版

如何在IDE里使用DeepSeek

算半个内行吧。粗略看了一下Deepseek v3 的技术报告，多个指标上比上一代v2版本提升明显，主要是在推理领域，包括...

Line公众号和小程序接入文档

line的官方账号如何运营？和微信公众平台比，运营有什么不同？

Line推广方式有哪些？Line推广效果如何

深田恭子《初恋那一天所读的故事》同款穿搭合集（更新至EP06）（初恋那一天所读的故事）剧评

【创造营】壹心line要弯道超车？细数壹心line和R1SE出道资源

【游戏工委】2022年中国游戏出海情况报告编组

中国游戏“出海”全攻略

两项报告发布！中国游戏出海迎来新机遇

关于游戏“出海”你了解多少？

月收入破亿、日赚740万美元，游戏出海按下了加速键