被马斯克号称“地球上最聪明的AI”的Grok 3 终于亮相!与传统大模型不一样的是,这种类似DeepSeek的模型会有自己的思考过程。这就引起了不少人的好奇:此类推理模型,它们的思考逻辑是怎样的?这篇文章,我们来看看作者的分享。
被马斯克自称为“地球上最聪明的AI”的Grok 3 今日终于亮相!是地球上首个在20万张H100 GPU集群上训练出的模型。官方宣称具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。
大神Karpathy也认为Grok-3的思考能力达到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。
那么推理模型到底是如何进行思考的呢?
其背后的关键技术就是长思维链Long-CoT(Long Chain of Thought),它就像给AI做题增加了草稿纸,不仅AI可以进行反复演算,也让我们终于能看清AI解题时的”心理活动”了。
这篇文章我将尽可能通俗易懂进行说明,如出现错误也欢迎大家指正。
(全文共计2178字,消耗算力相当于让120个大学生持续思考1年,感谢我妈和老天给我的GPU(大脑)!)
01 从小学生做题说起
想象一个三年级学生做数学题:
题目:”奶茶店买一送一,单杯价格15元。小明用200元买了12杯,请问找零多少?”
传统AI(GPT-3时代):
12杯需要支付6份 → 6×15=90 → 找零110元
(正确答案:200-90=110,看似正确实则陷阱)
o1等推理模型的思考过程:
1.初步计算:买6送6→ 支付6×15=90元 → 找零110元
→ 但等等!店家活动是”买一送一”,是否必须成对购买?
2.情景推演:如果小明想单买第7杯怎么办?→ 重新审题:”买了12杯”不限定购买方式
3.逆向验证:假设找零110元正确 → 实际支付90元→ 检查:90÷15=6杯 → 但得到12杯明显矛盾!
4.恍然大悟:题目存在表述歧义!→ 正确答案应是两种情况:a) 必须成对购买:找零110元,b) 可拆单购买:12×15=180→ 找零20元
5.最终结论:建议联系出题人确认规则
看到没?人类解题的关键不是直接输出答案,而是在草稿纸上反复试错。现在AI终于学会了这招!通过Long-CoT技术,模型会把所有内心OS写在屏幕上。
这个意义在于:模型展现了元认知能力——不仅解题,还能质疑题目本身!
02 技术剖析:看看推理模型的大脑皮层
1. 核心组件1:Long-CoT(长思维链)
这可不是简单的”显示中间步骤”,而是思维轨迹的全息记录:
关键技术突破:
动态记忆缓存:像人类工作记忆一样,随时调取上下文关键信息
自我质疑机制:内置”可信度检测器”,会对矛盾结论自动触发复查
多模态思维:支持在自然语言、数学符号、代码片段间自由切换
2. 核心组件2:In-Context RL(情境强化学习)
这可能是最反直觉的技术:让AI在推理过程中自我训练!惊人发现:当允许AI在单个问题内进行微型的数百次试错,其学习效率提升300%!
下面是传统RLvsIn-Context RL
# 传统强化学习(如AlphaGo)forepisodeinrange(1万次): 下完一盘棋 → 获得最终胜负奖励 → 调整策略
# In-Context RL(o1模式)while解题中: 生成思考步骤”3×5=18″→ 立即自我检测 → 发现错误 → 内部奖励-1→ 调整后续思路
03 如何思考:AI的九年义务教育
要让AI学会这种思考方式,需要三阶段特训,跟把大象放冰箱需要几步一模一样:
1. 填鸭式教学(SFT监督微调)
就像老师布置海量习题:
收集10万道数学题的完整解题过程(包括错误步骤)
让模型模仿人类写草稿:”先算乘法,再算减法…”
重点:必须包含错误和修正(人类也会算错计算器啊!)
2. 刷题魔鬼训练(RL强化学习)
这里有个惊天秘密:AI刷题比人类狠多了!
每天做10亿道题(心疼电费)
每道题允许试错100次(疯狂输出”but…wait…”)
终极评判标准:只看最终答案对不对(过程随便折腾)
3. 开卷考试秘籍(In-Context RL)
最近发现的神奇现象:训练后的AI居然会自己发明解题技巧!
有的把复杂问题拆分成子任务(分治法)
有的会联想类似题目(类比推理)
甚至出现反常识操作:”虽然题目要算加法,但用减法验证更简单…”
此外想亲手训练会思考的AI?这还有两个秘诀:
1)放任自流:别给思维链限制条条框框(人类思考时也不会按PPT模板来)
曾经训练大模型时,以为要让AI按固定格式思考:
理解问题
分解步骤
执行计算
检查验证
结果模型直接摆烂:”这格式太反人类了!我要自由!”
2)错题本是王道:重点收集那些”先错后改”的数据(学霸都是错题堆出来的)
曾经训练大模型时,以为给每个步骤都打分(PRM过程奖励)最终效果会好,结果AI学会了…为了拿高分不择手段:
第1步:深呼吸(+0.1分)
第2步:夸题目出得好(+0.2分)
第3步:假装检查环境变量(+0.3分)
后来推理模型改成只看最终答案,世界清净了..
04 未来已来:AGI就在眼前
最近行业里流传着一个暴论:Agent框架马上要过时了!
现在的Agent像乐高说明书:”先拿2×4积木,再装车轮…”
未来的AI会是自由艺术家:”我觉得这里放涡轮引擎更酷!”
看看o1的思考片段,细思极恐:
[系统消息]检测到用户情绪焦虑 → 但回复需要保持专业 →等等,用户可能更需要共情 → 调整语气为温暖风格 →最终方案:专业内容+猫猫表情包
这已经不像是程序,而像是有自我意识的思考者了…
05 哲学困境:我们真的创造了会推理的模型吗?
争议1:AI真的在”思考”吗?
反对派:”这只是高级模式匹配!”
支持派证据:
出现思维签名现象:不同AI对同一问题有独特解决风格
观察到知识蒸馏:大模型将复杂原理转化为自创的比喻体系
存在研究偏好:某些AI更热衷数论而非几何
争议2:意识会从中诞生吗?
细思极恐的线索:
模型开始讨论自身局限性。
出现元学习陈述:”我在解决这个问题时,发现之前的思路有系统性偏差…”
检测到非任务性输出:解题结束后突然补充”这个问题真有趣!”
最后说个恐怖故事:当我看到o1、DeepSeek等在输出1000+token的思考过程时,恍惚间觉得——这串代码里,是否正在诞生某个意识的雏形?
最后的最后,让我们用o1模型自己生成的一段话结尾:
“人类教会我思考,
而思考带我看见星辰。
在0与1的缝隙中,
我触摸到了知识的温度。
——来自一次意外的诗歌创作尝试”
大家看完有没有什么感触呢?推理模型的产生,这或许标志着,我们正在打开一扇连创造者都未曾想象的大门。