苹果炮轰AI推理模型:全是假思考

模型类型推理能力(CoT/自我验证)表现特点示例模型备注
推理模型(LRMs)强,擅长多路径推理中复杂度下表现最佳Claude 3.7-Thinking、DeepSeek-R1、o3-mini适合结构性任务,但对高复杂度任务无效
非推理模型(标准LLMs)弱,模式匹配为主简单任务表现出色Claude 3.7、DeepSeek-V3低复杂度时更高效,资源开销小

苹果最近测试了目前号称“深度思考”的AI,比如ClaudeDeepSeek。表面看它们很聪明,但一旦问题稍微复杂一些,它们就“彻底崩溃”了。

研究发现,这些大语言模型(LLMs)不像人类那样越难越努力去思考。相反,它们在复杂问题上会直接“放弃”,即使还有大量计算资源没用上。

哪怕你把解决问题的算法原封不动地告诉它,它也能搞错。也就是说:执行 ≠ 理解。

这不是“缺乏创造力”的问题,而是连最基本的逻辑都不稳定。

更奇怪的是:当面对简单问题时,它们会“想太多”——明明已经找到正确答案,却还去探索一些错误答案,最后把自己绕晕。

而遇到真正难题时,它们反而“想得更少”,早早放弃。

结果就是:在简单问题上浪费算力,在复杂问题上直接认输。

苹果的结论是:这些AI并不是真正在“推理”,它们本质上只是超大规模的“模式匹配器”。一旦你给它的问题超出了它受过训练的范围,它就会彻底“翻车”。

大模型当前的“推理能力”实质上是由语言模式建模驱动的,而非真正具备结构性逻辑推理能力。它们在结构性、组合性问题面前的崩溃,以及缺乏自我控制与反思机制,是它们与人类认知系统之间的根本差异。

从这一点可以说:**LRMs“像是在思考”,但并不真正“懂得思考”。**这就是“思维幻觉”。

复杂度阶段对比模型表现差异准确率变化(示例)核心发现结论摘要
低复杂度非推理模型(标准LLMs)优于LRMs河内塔 n=3:非推理模型≈98%,LRMs≈80%LRMs“过度思考”,推理链冗长,效率反而降低在简单任务中,复杂推理链非但无益,反而拖累表现,推荐使用轻量模型
中复杂度LRMs表现优于标准LLMsClaude 3.7-Thinking、DeepSeek-R1 在n=5任务中显著高于标准模型LRMs能通过探索错误路径进行自我修正,提高容错能力中等复杂度任务是推理模型展现优势的“甜蜜点”
高复杂度两类模型均失败河内塔 n=8、渡河问题 n=3 准确率≈0模型资源不足以克服组合爆炸,推理token数反而下降无论推理能力如何,现有架构均难以解决高度复杂任务,需范式转变

数据来源:Apple:The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Modelsvia the Lens of Problem Complexity

© 版权声明

相关文章

Hello,LinkHub!