苹果炮轰AI推理模型:全是假思考
模型类型 | 推理能力(CoT/自我验证) | 表现特点 | 示例模型 | 备注 |
---|---|---|---|---|
推理模型(LRMs) | 强,擅长多路径推理 | 中复杂度下表现最佳 | Claude 3.7-Thinking、DeepSeek-R1、o3-mini | 适合结构性任务,但对高复杂度任务无效 |
非推理模型(标准LLMs) | 弱,模式匹配为主 | 简单任务表现出色 | Claude 3.7、DeepSeek-V3 | 低复杂度时更高效,资源开销小 |
苹果最近测试了目前号称“深度思考”的AI,比如Claude和DeepSeek。表面看它们很聪明,但一旦问题稍微复杂一些,它们就“彻底崩溃”了。
研究发现,这些大语言模型(LLMs)不像人类那样越难越努力去思考。相反,它们在复杂问题上会直接“放弃”,即使还有大量计算资源没用上。
哪怕你把解决问题的算法原封不动地告诉它,它也能搞错。也就是说:执行 ≠ 理解。
这不是“缺乏创造力”的问题,而是连最基本的逻辑都不稳定。
更奇怪的是:当面对简单问题时,它们会“想太多”——明明已经找到正确答案,却还去探索一些错误答案,最后把自己绕晕。
而遇到真正难题时,它们反而“想得更少”,早早放弃。
结果就是:在简单问题上浪费算力,在复杂问题上直接认输。
苹果的结论是:这些AI并不是真正在“推理”,它们本质上只是超大规模的“模式匹配器”。一旦你给它的问题超出了它受过训练的范围,它就会彻底“翻车”。
大模型当前的“推理能力”实质上是由语言模式建模驱动的,而非真正具备结构性逻辑推理能力。它们在结构性、组合性问题面前的崩溃,以及缺乏自我控制与反思机制,是它们与人类认知系统之间的根本差异。
从这一点可以说:**LRMs“像是在思考”,但并不真正“懂得思考”。**这就是“思维幻觉”。
复杂度阶段 | 对比模型表现差异 | 准确率变化(示例) | 核心发现 | 结论摘要 |
---|---|---|---|---|
低复杂度 | 非推理模型(标准LLMs)优于LRMs | 河内塔 n=3:非推理模型≈98%,LRMs≈80% | LRMs“过度思考”,推理链冗长,效率反而降低 | 在简单任务中,复杂推理链非但无益,反而拖累表现,推荐使用轻量模型 |
中复杂度 | LRMs表现优于标准LLMs | Claude 3.7-Thinking、DeepSeek-R1 在n=5任务中显著高于标准模型 | LRMs能通过探索错误路径进行自我修正,提高容错能力 | 中等复杂度任务是推理模型展现优势的“甜蜜点” |
高复杂度 | 两类模型均失败 | 河内塔 n=8、渡河问题 n=3 准确率≈0 | 模型资源不足以克服组合爆炸,推理token数反而下降 | 无论推理能力如何,现有架构均难以解决高度复杂任务,需范式转变 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。