Grok3 来了，马斯克笑了，网站崩溃了

几个小时前，伊隆·马斯克终于发布了他口中「地球上最聪明的 AI」——Grok3。

在 Grok3 中，马斯克团队一口气带来了「地表最强」基础模型、推理模型以及第一个 agent（智能体）产品，还预告了正在路上的语音模型。官宣这一揽子新品，xAI 旨在追平甚至超越当前所有领先的 AI 产品能力。让所有人都重视 xAI 这头「房间里的大象」。

目前，只有 X 社交平台的 Premium+会员可以用 Grok3 测试版，但可能受限于其订阅价格（40 美元/月）价格或发布时间（当地晚上）的原因，X 平台暂未出现很多使用案例分享。

马斯克的老同事 Andrej Karpathy（早年特斯拉自动驾驶负责人）提前内测了 Grok3，综合使用下来，他认为 Grok 3 的能力大致与 o1-pro（200 美元/月）相当，优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

同时，对于 Grok3 发的第一个 Agent 产品「Deep Search」，他认为这个功能大概和 Perplexity 的「Deep Research」产品差不多，可以查阅网络资料进行自主探索、给出高质量回答，但有时也会出现编造信息或错误引用的情况，似乎还没到 OpenAI 最新发布的「Deep Research」水平，后者给人感觉更全面更可靠。

值得注意的是，Grok3 对发布只有一场直播 demo，没有官方博客和技术报告等更多信息。马斯克表示，模型每小时都在升级中，一周以后，Grok3 会带来更好更稳定的能力和更多基准测试的成绩。

马斯克的号召力还是很强，Grok3 网站刚一上线，就被热情的网友们点崩溃了。

显然，竞争越来越白热化的 AI 大战，让马斯克仓促地举办了这场发布会。Grok3 以及 xAI 的含金量几何，还要再等等。

第一个 10 万级 H100 训练出来的模型，Grok3 怎么样？

在已有谷歌、Anthropic 和 OpenAI 的情况下，马斯克的 xAI 仍被视为最有希望与这三家巨头抗衡的公司之一。一大原因就在于拥有 20 万卡集群——Colossus。作为世界上最大的人工智能超级计算机，Colossus 采用英伟达全栈参考设计，配备 20 万个英伟达 Hopper GPU。

Grok3 便是在这一集群上训练的，1 月初刚刚完成了预训练，现在 Grok3 的计算能力是 Grok-2 的 10 倍以上。

马斯克表示，Grok3 实际上仍然还在训练中，今天先展示 Grok3 在一部分基准测试中的成绩。

「如果上述基准看起来是在评测『教科书的背诵能力』，那么在实际使用能力上，Grok3 基座模型也确实是第一」。他们表示，在发布前两周，Grok3 以巧克力的代号在 Imarena 基准（前 Lmsys 基准）上进行了盲评，问同一个问题，让用户根据回答评价哪个模型更好，该基准被视为更加客观的测试。

在这一基准测试中，Grok3 达到了 1400 分，这也是这一榜单首次出现超过 1400 分的基座模型。并且，Grok3 在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等基座模型的所有评测类别上，都是第一。

官方称 Grok3 还在不断更新中，每天、每小时都在改进，今天给大家演示的模型版本就比送去评测的版本更先进。同时，最佳的预训练模型显然不够，Grok3 还可以像人类一样思考、反思、验证，回到第一性原理再思考等，具备了强大的推理能力。

他们表示，从 1 月初完成预训练模型以来，努力通过强化学习对其进行推理训练，现在还在早期阶段，但已经激发出了更多的能力。当给予更多的求解时间或者计算量，Grok3 模型表现更好。未来，还会发布一个 mini 版本的推理模型。

最后，团队放出了 Grok3 的第一代 agent，帮助工程师、研究人员和科学家进行编码、帮助每个人回答研究问题，有点像下一代搜索引擎的「Deep Search」。该功能与此前谷歌、OpenAI 和 Perplexity 的「Deep Research」类似，旨在帮助人类完成比较深度的研究工作。

Grok3 究竟行不行，还需要让子弹再飞一会

看完马斯克的 Grok3 发布会，鲜少能感受到「世界上最聪明的 AI」，总体是对齐第一梯队玩家、并没有超越的感觉。所以不少网友直呼：

「白瞎了」20 万张 Hopper GPU。

但现在下结论，还是太早了。

整个行业预训练上 Scaling Law 放缓，更多是受限于互联网数据用完了。换句话说，马斯克的 20 万卡集群和他本人的极致工程能力，还没有得以发挥。

我们来算算。

去年 4 月决定自建数据中心，迅速搞定英伟达 20 万张 Hopper 卡的到货，122 天拉起了 10 万卡集群，又用 92 天将数据中心扩展到 20 万卡集群。这是独有的马斯克执行力。黄仁勋都说了，当模型大小增加一倍，算力崩掉的概率要多出一个数量级。马斯克在十万级卡上完成预训练满打满算也就半年多。

另一边，推理上的 Scaling Law，放在整个 AI 行业也刚刚开始，而这部分也更吃算力、无论是需要做实验探索还是实际训练。

在不久前举办的迪拜世界政府峰会上，马斯克表示 Grok3 强大的推理能力背后，使用了创新的训练方法和大量合成数据，能够通过数据来回迭代实现逻辑一致性。如果发现错误数据，系统会反思并移除不符合现实的内容。但这些创新马斯克团队在今天的发布会上并未提及，就像他说的 Grok3 还在继续训练中，更好的版本要等下周以后。

显然，AI 竞争白热化，让马斯克在当下显仓促地拿出了 Grok3。或许是要在谷歌、Anthropic、OpenAI 在接下来一两周内更新下一代模型之前，占个先手。至少让大家看到 Grok3 即将追平现状了，但究竟有没有突破、能不能再突破，还需要时间的检验。

别忘了，马斯克可是战略高手，一方面加紧修炼 xAI，一方面放出「收购 OpenAI」的新闻给对手造成困扰。在 AI 这条路上，你很难预测马斯克到底能做出什么来。

（声明：本文仅代表作者观点，不代表新浪网立场。）

Grok3 来了，马斯克笑了，网站崩溃了

DeepSeekV3安卓2025最新版 v1.2.7官方版

DeepSeek官网最新版

DeepSeek下载安卓正版v1.3.1安卓免费版

国产大模型DeepSeek

爆火的DeepSeek

deepseekv3怎么用

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

deepseek手机版安卓2025最新版

如何在IDE里使用DeepSeek

算半个内行吧。粗略看了一下Deepseek v3 的技术报告，多个指标上比上一代v2版本提升明显，主要是在推理领域，包括...

Discord光遇社区入门指南＆测试服申请教程

Discord下载及保姆使用教程附翻译插件

Midjourney手机版和电脑版的功能差异

discord项目mod申请,平板discord注册教程

新手必读，如何玩转Discord，那些你必须知道的小常识