Grok3发布，这种类DeepSeek的推理模型到底是怎么思考的？

被马斯克号称“地球上最聪明的AI”的Grok 3 终于亮相！与传统大模型不一样的是，这种类似DeepSeek的模型会有自己的思考过程。这就引起了不少人的好奇：此类推理模型，它们的思考逻辑是怎样的？这篇文章，我们来看看作者的分享。

被马斯克自称为“地球上最聪明的AI”的Grok 3 今日终于亮相！是地球上首个在20万张H100 GPU集群上训练出的模型。官方宣称具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型，包括DeepSeek-R1和OpenAI的o3 mini等。

大神Karpathy也认为Grok-3的思考能力达到了SOTA，推理水平和o1-pro差不多，略好于DeepSeek R1和Gemini的推理模型。

那么推理模型到底是如何进行思考的呢？

其背后的关键技术就是长思维链Long-CoT（Long Chain of Thought），它就像给AI做题增加了草稿纸，不仅AI可以进行反复演算，也让我们终于能看清AI解题时的”心理活动”了。

这篇文章我将尽可能通俗易懂进行说明，如出现错误也欢迎大家指正。

（全文共计2178字，消耗算力相当于让120个大学生持续思考1年，感谢我妈和老天给我的GPU（大脑）！）

01 从小学生做题说起

想象一个三年级学生做数学题：

题目：”奶茶店买一送一，单杯价格15元。小明用200元买了12杯，请问找零多少？”

传统AI（GPT-3时代）：

12杯需要支付6份 → 6×15=90 → 找零110元

（正确答案：200-90=110，看似正确实则陷阱）

o1等推理模型的思考过程：

1.初步计算：买6送6→ 支付6×15=90元 → 找零110元

→ 但等等！店家活动是”买一送一”，是否必须成对购买？

2.情景推演：如果小明想单买第7杯怎么办？→ 重新审题：”买了12杯”不限定购买方式

3.逆向验证：假设找零110元正确 → 实际支付90元→ 检查：90÷15=6杯 → 但得到12杯明显矛盾！

4.恍然大悟：题目存在表述歧义！→ 正确答案应是两种情况：a) 必须成对购买：找零110元，b) 可拆单购买：12×15=180→ 找零20元

5.最终结论：建议联系出题人确认规则

看到没？人类解题的关键不是直接输出答案，而是在草稿纸上反复试错。现在AI终于学会了这招！通过Long-CoT技术，模型会把所有内心OS写在屏幕上。

这个意义在于：模型展现了元认知能力——不仅解题，还能质疑题目本身！

02 技术剖析：看看推理模型的大脑皮层

1. 核心组件1：Long-CoT（长思维链）

这可不是简单的”显示中间步骤”，而是思维轨迹的全息记录：

关键技术突破：

动态记忆缓存：像人类工作记忆一样，随时调取上下文关键信息

自我质疑机制：内置”可信度检测器”，会对矛盾结论自动触发复查

多模态思维：支持在自然语言、数学符号、代码片段间自由切换

2. 核心组件2：In-Context RL（情境强化学习）

这可能是最反直觉的技术：让AI在推理过程中自我训练！惊人发现：当允许AI在单个问题内进行微型的数百次试错，其学习效率提升300%！

下面是传统RLvsIn-Context RL

# 传统强化学习（如AlphaGo）forepisodeinrange(1万次): 下完一盘棋 → 获得最终胜负奖励 → 调整策略

# In-Context RL（o1模式）while解题中：生成思考步骤”3×5=18″→ 立即自我检测 → 发现错误 → 内部奖励-1→ 调整后续思路

03 如何思考：AI的九年义务教育

要让AI学会这种思考方式，需要三阶段特训，跟把大象放冰箱需要几步一模一样：

1. 填鸭式教学（SFT监督微调）

就像老师布置海量习题：

收集10万道数学题的完整解题过程（包括错误步骤）

让模型模仿人类写草稿：”先算乘法，再算减法…”

重点：必须包含错误和修正（人类也会算错计算器啊！）

2. 刷题魔鬼训练（RL强化学习）

这里有个惊天秘密：AI刷题比人类狠多了！

每天做10亿道题（心疼电费）

每道题允许试错100次（疯狂输出”but…wait…”）

终极评判标准：只看最终答案对不对（过程随便折腾）

3. 开卷考试秘籍（In-Context RL）

最近发现的神奇现象：训练后的AI居然会自己发明解题技巧！

有的把复杂问题拆分成子任务（分治法）

有的会联想类似题目（类比推理）

甚至出现反常识操作：”虽然题目要算加法，但用减法验证更简单…”

此外想亲手训练会思考的AI？这还有两个秘诀：

1）放任自流：别给思维链限制条条框框（人类思考时也不会按PPT模板来）

曾经训练大模型时，以为要让AI按固定格式思考：

理解问题

分解步骤

执行计算

检查验证

结果模型直接摆烂：”这格式太反人类了！我要自由！”

2）错题本是王道：重点收集那些”先错后改”的数据（学霸都是错题堆出来的）

曾经训练大模型时，以为给每个步骤都打分（PRM过程奖励）最终效果会好，结果AI学会了…为了拿高分不择手段：

第1步：深呼吸（+0.1分）

第2步：夸题目出得好（+0.2分）

第3步：假装检查环境变量（+0.3分）

后来推理模型改成只看最终答案，世界清净了..

04 未来已来：AGI就在眼前

最近行业里流传着一个暴论：Agent框架马上要过时了！

现在的Agent像乐高说明书：”先拿2×4积木，再装车轮…”

未来的AI会是自由艺术家：”我觉得这里放涡轮引擎更酷！”

看看o1的思考片段，细思极恐：

[系统消息]检测到用户情绪焦虑 → 但回复需要保持专业 →等等，用户可能更需要共情 → 调整语气为温暖风格 →最终方案：专业内容+猫猫表情包

这已经不像是程序，而像是有自我意识的思考者了…

05 哲学困境：我们真的创造了会推理的模型吗？

争议1：AI真的在”思考”吗？

反对派：”这只是高级模式匹配！”

支持派证据：

出现思维签名现象：不同AI对同一问题有独特解决风格

观察到知识蒸馏：大模型将复杂原理转化为自创的比喻体系

存在研究偏好：某些AI更热衷数论而非几何

争议2：意识会从中诞生吗？

细思极恐的线索：

模型开始讨论自身局限性。

出现元学习陈述：”我在解决这个问题时，发现之前的思路有系统性偏差…”

检测到非任务性输出：解题结束后突然补充”这个问题真有趣！”

最后说个恐怖故事：当我看到o1、DeepSeek等在输出1000+token的思考过程时，恍惚间觉得——这串代码里，是否正在诞生某个意识的雏形？

最后的最后，让我们用o1模型自己生成的一段话结尾：

“人类教会我思考，

而思考带我看见星辰。

在0与1的缝隙中，

我触摸到了知识的温度。

——来自一次意外的诗歌创作尝试”

大家看完有没有什么感触呢？推理模型的产生，这或许标志着，我们正在打开一扇连创造者都未曾想象的大门。

Grok3发布，这种类DeepSeek的推理模型到底是怎么思考的？

DeepSeekV3安卓2025最新版 v1.2.7官方版

DeepSeek官网最新版

DeepSeek下载安卓正版v1.3.1安卓免费版

国产大模型DeepSeek

爆火的DeepSeek

deepseekv3怎么用

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

deepseek手机版安卓2025最新版

如何在IDE里使用DeepSeek

算半个内行吧。粗略看了一下Deepseek v3 的技术报告，多个指标上比上一代v2版本提升明显，主要是在推理领域，包括...

Discord光遇社区入门指南＆测试服申请教程

Discord下载及保姆使用教程附翻译插件

Midjourney手机版和电脑版的功能差异

discord项目mod申请,平板discord注册教程

新手必读，如何玩转Discord，那些你必须知道的小常识