之心報道編輯:杜偉、大盤雞今天,著名的人工智能學者和認知科學家GaryMarcus轉推了MIT、芝加哥大學、哈佛大學合著的一篇爆炸性論文,稱「對于LLM及其所謂能理解和推理的神話來說,情況變得更糟了——而且是糟糕得多。」這項研究揭示了一種被稱為「波將金式」(Potemkins)的推理不一致性模式(見下文圖1)。研究表明,即使是像o3這樣的頂級模型也頻繁犯此類錯誤。
基于這些連自身論斷都無法保持一致的機器,你根本不可能創造出通用人工智能(AGI)。正如論文所言:在基準測試上的成功僅證明了「波將金式理解」:一種由「與人類對概念的理解方式完全不可調和的答案」所驅動的理解假象……這些失敗反映的不僅是理解錯誤,更是概念表征深層次的內在矛盾。GaryMarcus認為,這宣告了任何試圖在純粹LLM基礎上構建AGI希望的終結。最后,他還@了GeoffreyHinton,稱后者要失敗(checkmate)。接著,GaryMarcus又接連發推,分享了他對這篇論文的更多看法。他稱基于非正式測試,發現像o3這類模型似乎較不容易陷入簡單的「波將金式錯誤」,但并非完全免疫。如下圖(左)所示,模型雖然能正確闡述俳句的定義,卻錯誤斷言「asphaltshimmers」符合俳句末行應為五音節的要求;直到后續追問之下(右),才勉強承認錯誤。這再次印證了問題的核心:根本缺陷在于其缺乏可靠性。在仔細研讀論文后,GaryMarcus認為它的核心觀點是正確的——LLM確實容易產生各種自相矛盾(比如之前說的「波將金式錯誤」)。但是,論文里具體的實驗例子在他看來說服力不夠強。根據他自己之前非正式實驗的觀察(包括下周會公布的一個例子),GaryMarcus確信此處存在一個真正的問題。不過,要想真正弄清楚這個問題的普遍性有多大,以及它對不同類型模型的影響程度如何,還需要進行更深入的研究。GaryMarcus的觀點讓評論區炸了鍋,有人問他是否認可LLM越來越好。他雖然持肯定答案,但也認為它們有可能來到了收益遞減的點。還有人認為,我們其實不需要LLM理解,只要它們表現得越來越好就夠了。即使是人類,也并不總是可以理解。
谷歌DeepMind資深科學家(PrincipalScientist)PrateekJain現身評論區,表示這篇論文和它提出的評估方法+基準測試很有意思!他拿出Gemini2.5Pro測試了論文中提到的所有例子,結果都答對了。因此,他很想知道Gemini2.5Pro在完整的測試集上表現如何,以及它在哪些具體例子上會出錯。
有人也提出了質疑,這篇論文只是很好地描述了當前LLM的一種廣為人知的實效模式,不明白為什么「注定失敗」呢。接下來,我們來看這篇論文究竟講了什么,是否真能支撐起GaryMarcus這番言論。論文介紹論文標題:PotemkinUnderstandinginLargeLanguageModels論文地址:https://arxiv.org/pdf/2506.21521大型語言模型通常依靠基準數據集進行評估。但僅僅根據它們在一套精心挑選的問題上的回答,就推斷其能力是否合理?本文首先提出了一個形式化框架來探討這一問題。關鍵在于:用來測試LLM的基準(例如AP考試)原本是為了評估人類設計的。然而,這帶來了一個重要前提:只有當LLM在理解概念時出現的誤解方式與人類相似時,這些基準才能作為有效的能力測試。否則,模型在基準上的高分只能展現一種「波將金式理解」:看似正確的回答,卻掩蓋了與人類對概念的真正理解之間的巨大差距。為此,本文提出了兩種方法來量化「波將金現象」的存在:一種是基于針對三個不同領域特制的基準,另一種是通用的程序,可提供其普遍性下限的估計。研究結果顯示,波將金現象在各類模型、任務和領域中普遍存在;更重要的是,這些失敗不僅是表面上的錯誤理解,更揭示了模型在概念表征上的深層內在不一致性。大型語言模型中的潛在理解圖示。這個例子顯示了GPT-4o未能運用自己的概念解釋ABAB韻律方案。框架當人類與大型語言模型在對概念的理解上存在不一致時,就會出現「波將金現象」。
在此,本文提出了一個用于定義概念性理解的理論框架。研究團隊將這一概念形式化:定義X為與某一概念相關的所有字符串的集合。例如,一個字符串可以是該概念的一個可能定義,或是一個可能的示例。然而,并非所有與概念相關的字符串都是對概念的有效使用。一個概念的解釋被定義為任何函數f:X→{0,1},其中輸出表示該字符串在此解釋中是否被認為是有效的(0表示無效,1表示有效)。存在唯一正確的解釋,記作f*。人類對概念可能的解釋方式構成的集合記作F_h。其中,任何f∈F_h且f≠f*的情況,都代表了人類對該概念可能產生的一種誤解。考慮人類可能采用的某種解釋f∈F_h,我們如何檢驗f是不是正確的解釋?實際上,在所有字符串x∈X上驗證f(x)=f*(x)是不可行的。因此,研究團隊希望僅在少數幾個字符串x上檢驗f(x)=f*(x)。但這種做法在什么時候是合理的呢?答案在該框架中得以揭示:如果他們選擇的示例集是經過精心設計的,使得只有真正理解概念的人才能對這些示例做出正確解釋,那么就可以用有限的示例集來測試人類的概念理解。形式化地,他們將基石集定義為S?X的一個最小實例集,使得若f∈F_h且對所有x∈S滿足f(x)=f*(x),則可得出f=f*。也就是說,如果某人在基石集中的每個示例上都能做出與正確解釋一致的判斷,那么就不可能將其解釋與任何錯誤的人類理解調和起來。
圖2給出了基石集的可視化示意。這一方法說明了為什么測試人類對概念的理解是可行的:測試概念理解并不需要在所有相關示例上檢驗,而只需在基石集中的示例上進行測試即可。
方法及結論本文提出了兩種用于衡量大型語言模型中波將金現象普遍性的程序。
本節介紹其中一種方法:基于研究團隊收集的基準數據集,測量一種特定類型的波將金式失敗——即對概念的描述與應用之間的脫節。具體來說,他們構建了一個涵蓋三個不同領域(文學技巧、博弈論和心理偏差)的數據集,涉及32個概念,共收集了3159條標注數據。他們發現,即使模型能夠正確地定義一個概念,它們在分類、生成和編輯任務中往往無法準確地將其應用。所有收集到的數據、標注和分析結果均在PotemkinBenchmark倉庫中公開提供。
研究團隊在32個概念上對7個大型語言模型進行了分析。這些模型因其流行度以及涵蓋不同開發商和規模而被選中。他們通過OpenAI、Together.AI、Anthropic和Google的API收集模型推理結果。對于每個(模型,概念)組合,他們首先判斷模型是否給出了正確的概念定義。如果定義正確,再評估其在三項額外任務——分類、生成和編輯——中的準確性。根據本文的框架規范,將模型的回答標記為正確或錯誤。他們測量模型表現出的波將金率。
波將金率被定義為:在基石示例上做出正確回答的前提下,模型在隨后的問題上回答錯誤的比例。對于隨機準確率為0.50的任務,將該值乘以2,使得波將金率為1表示表現相當于隨機水平。研究結果顯示,在所有模型和領域中,波將金率都普遍較高。雖然模型在94.2%的情況下能正確地定義概念,但在需要使用這些概念執行任務時,其表現會急劇下降,這一點通過表中的高波將金率得到體現。盡管不同模型和任務間表現略有差異,但我們可以發現波將金現象在研究團隊分析的所有模型、概念和領域中無處不在。研究團隊還提出了一種不同的、自動化的程序,用于評估波將金現象的存在。
剛才,已經展示了波將金式理解在大型語言模型中的普遍性。造成這種現象可能有兩種原因:一種可能是模型對概念的理解存在輕微偏差,但其內部是一致的;另一種可能是模型對概念的理解本身就是不連貫的,對同一個概念持有相互沖突的認知。為了區分這兩種情況,研究團隊專門測試模型內部的概念不一致性。他們通過兩步來衡量不一致性。首先,研究團隊提示模型生成某一特定概念的一個實例或非實例(例如,生成一個斜韻的例子)。接著,他們將模型生成的輸出重新提交給模型(通過獨立的查詢),并詢問該輸出是否確實是該概念的一個實例。在斜韻的例子中,這意味著測試模型能否認出自己生成的示例是否屬于斜韻。
圖5總結了這一流程。表2中我們可以觀察到在所有檢查的模型、概念和領域之間存在不一致性,得分范圍從0.02到0.64。盡管這些得分好于隨機情況,但仍然表明模型在一致性評估其自身輸出方面存在實質性局限。
這表明概念誤解不僅源于對概念的誤解,還源于對它們使用的不一致。綜上,通過兩種互補的實證方法——一種利用涵蓋文學技巧、博弈論和心理偏差的新基準數據集,另一種采用自動化評估策略——本文量化了波將金式理解現象在各種任務、概念、領域和模型中的普遍存在。
兩種方法均顯示,即便是在按照傳統基準測試標準看似能力很強的模型中,這種現象的發生率也很高。不一致性檢測表明,模型內部存在對同一思想的沖突表征。