几个小时前,伊隆·马斯克终于发布了他口中「地球上最聪明的 AI」——Grok3。
在 Grok3 中,马斯克团队一口气带来了「地表最强」基础模型、推理模型以及第一个 agent(智能体)产品,还预告了正在路上的语音模型。官宣这一揽子新品,xAI 旨在追平甚至超越当前所有领先的 AI 产品能力。让所有人都重视 xAI 这头「房间里的大象」。

目前,只有 X 社交平台的 Premium+会员可以用 Grok3 测试版,但可能受限于其订阅价格(40 美元/月)价格或发布时间(当地晚上)的原因,X 平台暂未出现很多使用案例分享。
马斯克的老同事 Andrej Karpathy(早年特斯拉自动驾驶负责人)提前内测了 Grok3,综合使用下来,他认为 Grok 3 的能力大致与 o1-pro(200 美元/月)相当,优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
同时,对于 Grok3 发的第一个 Agent 产品「Deep Search」,他认为这个功能大概和 Perplexity 的「Deep Research」产品差不多,可以查阅网络资料进行自主探索、给出高质量回答,但有时也会出现编造信息或错误引用的情况,似乎还没到 OpenAI 最新发布的「Deep Research」水平,后者给人感觉更全面更可靠。

值得注意的是,Grok3 对发布只有一场直播 demo,没有官方博客和技术报告等更多信息。马斯克表示,模型每小时都在升级中,一周以后,Grok3 会带来更好更稳定的能力和更多基准测试的成绩。
马斯克的号召力还是很强,Grok3 网站刚一上线,就被热情的网友们点崩溃了。
显然,竞争越来越白热化的 AI 大战,让马斯克仓促地举办了这场发布会。Grok3 以及 xAI 的含金量几何,还要再等等。
第一个 10 万级 H100 训练出来的模型,Grok3 怎么样?
在已有谷歌、Anthropic 和 OpenAI 的情况下,马斯克的 xAI 仍被视为最有希望与这三家巨头抗衡的公司之一。一大原因就在于拥有 20 万卡集群——Colossus。作为世界上最大的人工智能超级计算机,Colossus 采用英伟达全栈参考设计,配备 20 万个英伟达 Hopper GPU。

Grok3 便是在这一集群上训练的,1 月初刚刚完成了预训练,现在 Grok3 的计算能力是 Grok-2 的 10 倍以上。
马斯克表示,Grok3 实际上仍然还在训练中,今天先展示 Grok3 在一部分基准测试中的成绩。

「如果上述基准看起来是在评测『教科书的背诵能力』,那么在实际使用能力上,Grok3 基座模型也确实是第一」。他们表示,在发布前两周,Grok3 以巧克力的代号在 Imarena 基准(前 Lmsys 基准)上进行了盲评,问同一个问题,让用户根据回答评价哪个模型更好,该基准被视为更加客观的测试。

在这一基准测试中,Grok3 达到了 1400 分,这也是这一榜单首次出现超过 1400 分的基座模型。并且,Grok3 在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等基座模型的所有评测类别上,都是第一。
官方称 Grok3 还在不断更新中,每天、每小时都在改进,今天给大家演示的模型版本就比送去评测的版本更先进。同时,最佳的预训练模型显然不够,Grok3 还可以像人类一样思考、反思、验证,回到第一性原理再思考等,具备了强大的推理能力。
他们表示,从 1 月初完成预训练模型以来,努力通过强化学习对其进行推理训练,现在还在早期阶段,但已经激发出了更多的能力。当给予更多的求解时间或者计算量,Grok3 模型表现更好。未来,还会发布一个 mini 版本的推理模型。

最后,团队放出了 Grok3 的第一代 agent,帮助工程师、研究人员和科学家进行编码、帮助每个人回答研究问题,有点像下一代搜索引擎的「Deep Search」。该功能与此前谷歌、OpenAI 和 Perplexity 的「Deep Research」类似,旨在帮助人类完成比较深度的研究工作。

Grok3 究竟行不行,还需要让子弹再飞一会
看完马斯克的 Grok3 发布会,鲜少能感受到「世界上最聪明的 AI」,总体是对齐第一梯队玩家、并没有超越的感觉。所以不少网友直呼:
「白瞎了」20 万张 Hopper GPU。
但现在下结论,还是太早了。
整个行业预训练上 Scaling Law 放缓,更多是受限于互联网数据用完了。换句话说,马斯克的 20 万卡集群和他本人的极致工程能力,还没有得以发挥。
我们来算算。
去年 4 月决定自建数据中心,迅速搞定英伟达 20 万张 Hopper 卡的到货,122 天拉起了 10 万卡集群,又用 92 天将数据中心扩展到 20 万卡集群。这是独有的马斯克执行力。黄仁勋都说了,当模型大小增加一倍,算力崩掉的概率要多出一个数量级。马斯克在十万级卡上完成预训练满打满算也就半年多。
另一边,推理上的 Scaling Law,放在整个 AI 行业也刚刚开始,而这部分也更吃算力、无论是需要做实验探索还是实际训练。
在不久前举办的迪拜世界政府峰会上,马斯克表示 Grok3 强大的推理能力背后,使用了创新的训练方法和大量合成数据,能够通过数据来回迭代实现逻辑一致性。如果发现错误数据,系统会反思并移除不符合现实的内容。但这些创新马斯克团队在今天的发布会上并未提及,就像他说的 Grok3 还在继续训练中,更好的版本要等下周以后。
显然,AI 竞争白热化,让马斯克在当下显仓促地拿出了 Grok3。或许是要在谷歌、Anthropic、OpenAI 在接下来一两周内更新下一代模型之前,占个先手。至少让大家看到 Grok3 即将追平现状了,但究竟有没有突破、能不能再突破,还需要时间的检验。
别忘了,马斯克可是战略高手,一方面加紧修炼 xAI,一方面放出「收购 OpenAI」的新闻给对手造成困扰。在 AI 这条路上,你很难预测马斯克到底能做出什么来。

(声明:本文仅代表作者观点,不代表新浪网立场。)