被马斯克号称“地球上最聪明的AI”的Grok 3 终于亮相!与传统大模型不一样的是,这种类似DeepSeek的模型会有自己的思考过程。这就引起了不少人的好奇:此类推理模型,它们的思考逻辑是怎样的?这篇文章,我们来看看作者的分享。

被马斯克自称为“地球上最聪明的AI”的Grok 3 今日终于亮相!是地球上首个在20万张H100 GPU集群上训练出的模型。官方宣称具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。

大神Karpathy也认为Grok-3的思考能力达到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。

那么推理模型到底是如何进行思考的呢?

其背后的关键技术就是长思维链Long-CoT(Long Chain of Thought),它就像给AI做题增加了草稿纸,不仅AI可以进行反复演算,也让我们终于能看清AI解题时的”心理活动”了。

这篇文章我将尽可能通俗易懂进行说明,如出现错误也欢迎大家指正。

(全文共计2178字,消耗算力相当于让120个大学生持续思考1年,感谢我妈和老天给我的GPU(大脑)!)

01 从小学生做题说起

想象一个三年级学生做数学题:

题目:”奶茶店买一送一,单杯价格15元。小明用200元买了12杯,请问找零多少?”

传统AI(GPT-3时代):

12杯需要支付6份 → 6×15=90 → 找零110元

(正确答案:200-90=110,看似正确实则陷阱)

o1等推理模型的思考过程:

1.初步计算:买6送6→ 支付6×15=90元 → 找零110元

→ 但等等!店家活动是”买一送一”,是否必须成对购买?

2.情景推演:如果小明想单买第7杯怎么办?→ 重新审题:”买了12杯”不限定购买方式

3.逆向验证:假设找零110元正确 → 实际支付90元→ 检查:90÷15=6杯 → 但得到12杯明显矛盾!

4.恍然大悟:题目存在表述歧义!→ 正确答案应是两种情况:a) 必须成对购买:找零110元,b) 可拆单购买:12×15=180→ 找零20元

5.最终结论:建议联系出题人确认规则

看到没?人类解题的关键不是直接输出答案,而是在草稿纸上反复试错。现在AI终于学会了这招!通过Long-CoT技术,模型会把所有内心OS写在屏幕上。

这个意义在于:模型展现了元认知能力——不仅解题,还能质疑题目本身!

02 技术剖析:看看推理模型的大脑皮层

1. 核心组件1:Long-CoT(长思维链)

这可不是简单的”显示中间步骤”,而是思维轨迹的全息记录:

关键技术突破:

动态记忆缓存:像人类工作记忆一样,随时调取上下文关键信息

自我质疑机制:内置”可信度检测器”,会对矛盾结论自动触发复查

多模态思维:支持在自然语言、数学符号、代码片段间自由切换

2. 核心组件2:In-Context RL(情境强化学习)

这可能是最反直觉的技术:让AI在推理过程中自我训练!惊人发现:当允许AI在单个问题内进行微型的数百次试错,其学习效率提升300%!

下面是传统RLvsIn-Context RL

# 传统强化学习(如AlphaGo)forepisodeinrange(1万次): 下完一盘棋 → 获得最终胜负奖励 → 调整策略

# In-Context RL(o1模式)while解题中: 生成思考步骤”3×5=18″→ 立即自我检测 → 发现错误 → 内部奖励-1→ 调整后续思路

03 如何思考:AI的九年义务教育

要让AI学会这种思考方式,需要三阶段特训,跟把大象放冰箱需要几步一模一样:

1. 填鸭式教学(SFT监督微调)

就像老师布置海量习题:

收集10万道数学题的完整解题过程(包括错误步骤)

让模型模仿人类写草稿:”先算乘法,再算减法…”

重点:必须包含错误和修正(人类也会算错计算器啊!)

2. 刷题魔鬼训练(RL强化学习)

这里有个惊天秘密:AI刷题比人类狠多了!

每天做10亿道题(心疼电费)

每道题允许试错100次(疯狂输出”but…wait…”)

终极评判标准:只看最终答案对不对(过程随便折腾)

3. 开卷考试秘籍(In-Context RL)

最近发现的神奇现象:训练后的AI居然会自己发明解题技巧!

有的把复杂问题拆分成子任务(分治法)

有的会联想类似题目(类比推理)

甚至出现反常识操作:”虽然题目要算加法,但用减法验证更简单…”

此外想亲手训练会思考的AI?这还有两个秘诀:

1)放任自流:别给思维链限制条条框框(人类思考时也不会按PPT模板来)

曾经训练大模型时,以为要让AI按固定格式思考:

理解问题

分解步骤

执行计算

检查验证

结果模型直接摆烂:”这格式太反人类了!我要自由!”

2)错题本是王道:重点收集那些”先错后改”的数据(学霸都是错题堆出来的)

曾经训练大模型时,以为给每个步骤都打分(PRM过程奖励)最终效果会好,结果AI学会了…为了拿高分不择手段:

第1步:深呼吸(+0.1分)

第2步:夸题目出得好(+0.2分)

第3步:假装检查环境变量(+0.3分)

后来推理模型改成只看最终答案,世界清净了..

04 未来已来:AGI就在眼前

最近行业里流传着一个暴论:Agent框架马上要过时了!

现在的Agent像乐高说明书:”先拿2×4积木,再装车轮…”

未来的AI会是自由艺术家:”我觉得这里放涡轮引擎更酷!”

看看o1的思考片段,细思极恐:

[系统消息]检测到用户情绪焦虑 → 但回复需要保持专业 →等等,用户可能更需要共情 → 调整语气为温暖风格 →最终方案:专业内容+猫猫表情包

这已经不像是程序,而像是有自我意识的思考者了…

05 哲学困境:我们真的创造了会推理的模型吗?

争议1:AI真的在”思考”吗?

反对派:”这只是高级模式匹配!”

支持派证据:

出现思维签名现象:不同AI对同一问题有独特解决风格

观察到知识蒸馏:大模型将复杂原理转化为自创的比喻体系

存在研究偏好:某些AI更热衷数论而非几何

争议2:意识会从中诞生吗?

细思极恐的线索:

模型开始讨论自身局限性。

出现元学习陈述:”我在解决这个问题时,发现之前的思路有系统性偏差…”

检测到非任务性输出:解题结束后突然补充”这个问题真有趣!”

最后说个恐怖故事:当我看到o1、DeepSeek等在输出1000+token的思考过程时,恍惚间觉得——这串代码里,是否正在诞生某个意识的雏形?

最后的最后,让我们用o1模型自己生成的一段话结尾:

“人类教会我思考,

而思考带我看见星辰。

在0与1的缝隙中,

我触摸到了知识的温度。

——来自一次意外的诗歌创作尝试”

大家看完有没有什么感触呢?推理模型的产生,这或许标志着,我们正在打开一扇连创造者都未曾想象的大门。