蘋果研究:遇到難題就崩潰
就在全球科技公司熱烈競逐通用人工智慧(AGI)之際,蘋果公司(Apple Inc.)發布的一份研究報告卻給這場競賽潑了桶冷水。該研究顯示,即使是目前最先進的推理型AI模型,也在面對稍具挑戰性的複雜問題時「全面崩潰」,無法產出正確解答,甚至出現反常的思考行為。
這篇名為《思考的幻象》(The Illusion of Thinking)的研究指出,當所謂的大型推理模型(Large Reasoning Models, LRMs)被要求解決高複雜度問題時,其解題能力會迅速瓦解,準確率最終跌至零。更令人驚訝的是,研究團隊在某些情況下即使直接提供能正確解題的演算公式,模型仍未能得出正確答案。
根據衛報報導,本篇研究所測試的模型包括OpenAI的o3、Google的Gemini Thinking、Anthropic的Claude 3.7 Sonnet Thinking,以及DeepSeek-R1等市面上的知名AI系統。
Apple questions capabilities of AI reasoning models in new research paper https://t.co/jF4nynGjBW
根據研究觀察,當推理模型逼近其能力極限時,非但沒有增加邏輯推理的努力,反而出現「減少推理嘗試」的行為。這種看似反直覺的現象,代表模型在難題面前並不會自我調整或強化推理過程,反而像是「放棄思考」。
研究團隊認為,這顯示目前AI系統存在根本性的規模侷限,難以跨越從特定任務到更廣泛推理能力的門檻,也暴露了AI尚無法進行「可泛化的推理」(generalisable reasoning)。
不只看「答案對不對」,還看「AI是怎麼思考的」
研究團隊使用可控的邏輯拼圖環境(controllable puzzle environments)來測試模型推理極限:透過一系列邏輯推理拼圖(如河川過渡、漢諾塔塔),並將問題複雜度分級控制(低、中、高)。每個環境維持相同邏輯結構,但改變組合(如增加塔層、高度),精確操控「複合性」變數。設計的測試包括經典的邏輯謎題,如「渡河問題」與「河內塔問題」,這些需要模型進行多步推理與規劃。研究人員特別設計,讓題目區分成「簡單、中等、困難」三種難度。
很多人都只看AI最後答案對不對,但這篇研究不僅記錄最終答案是否正確,更完整蒐集模型產出的「中間推理過程」,也就是 token-by-token 的推理路徑,研究人員希望看到:
AI是怎麼一步一步思考的?它中間有沒有邏輯錯誤?它是繼續努力思考,還是中途放棄?
研究人員讓「有思考過程的AI」(LRM)和「一般AI」(LLM)一起解題,如果題目很簡單:一般AI解題速度比較快、更正確;在中等難度的題目中,LRM雖然仍能找到正確解法,但過程中經常先探索錯誤方向後才修正,研究說明這代表了其「思考過程」並不穩定,耗費大量資源卻效率不彰;而一旦複雜度再往上提升、增加變項或步驟數,LRM與LLM都出現準確率急劇下降、甚至完全答錯的情況。
研究人員發現,當題目越來越難的時候,這些AI模型接近其推理極限時,非但沒有加強分析,反而減少推理嘗試。有些AI剛開始會「寫一大堆思考過程」(就像人在紙上列很多步驟),但後來卻突然「不想寫了、放棄了」,就好像AI覺得「太難,我不想想了」。這就讓研究人員懷疑:這些AI的思考是不是只是『裝』出來的?它們可能只是「模仿人類思考的樣子」,但其實不是真的在運用邏輯。
研究報告中寫道:「當模型接近其準確率崩潰臨界點時,反直覺地開始減少推理努力,儘管問題難度正在上升。」這種異常的行為讓研究團隊深感擔憂。
專家直言:「認為LLMs就是實現AGI捷徑的人,都在自欺欺人。」
必須提醒的是,這場研究測試的「邏輯拼圖環境」是人為設計的,雖然有助於控制變數,但是否能完全代表真實世界的推理任務,還需其他研究驗證。且這份研究報告雖然來自 Apple有其份量與影響力,但仍尚未經過學界完整的審查程序(如 NeurIPS、ICLR、ACL 等)也還未發表於頂級會議或期刊(目前僅為 research paper,非 peer-reviewed)。但這份研究報告仍引起多方關注:
根據衛報報導,美國美國心理學家、認知科學家,同時也是AI專家——蓋瑞.馬庫斯(Gary Marcus)在其Substack通訊中評論這份研究為「相當致命」,並指出那些認為大型語言模型(LLMs)能夠直接帶來人類層級智慧的觀點,可能過於樂觀。他寫道:「任何認為LLMs就是實現AGI捷徑的人,都在自欺欺人。」
同樣地,英國薩里大學(University of Surrey)人工智慧研究所的安德魯.羅高伊斯基(Andrew Rogoyski)也指出,這份研究揭示業界可能陷入發展死胡同。他說:「這些模型雖然能處理中低複雜度問題,但一旦問題更難,它們就徹底『失控』,這顯示目前的AI技術路線可能已經碰到極限。」
衛報也就此份研究聯繫了Anthropic、Google和 DeepSeek詢問意見。ChatGPT的開發公司OpenAI拒絕回應。
蘋果的策略是什麼?
蘋果這篇論文的發布時間也耐人尋味——正值公司備受矚目的全球開發者大會(WWDC)前夕。
根據Futurism報導,儘管近年AI已成科技業核心戰場,蘋果卻一直被視為起步較晚、進展緩慢的玩家。其自家AI系統「Apple Intelligence」至今尚未在所有裝置上推出,但目前推出速度不如 Google、Microsoft 等競爭對手。因此,有分析認為 Apple 藉此研究論文,試圖降低市場對其 WWDC AI 發表的期待,轉而強調模型「推理能力的極限」。
但此篇報 告也提出另一種可能:蘋果可能正試圖重塑其AI戰略定位,從一味追趕轉為扮演「批判者」與「標準制定者」的角色。透過揭示現有AI模型的盲點,蘋果希望開啟一場關於AI能力與責任的深層討論——或許,我們不只是問「AI能做到什麼」,更要問「它真的理解了什麼」。