Experts Have World Models. LLMs Have Word Models.

來自:Latent.Space
日期:2026-02-08

專家擁有世界模型,LLM 只有文字模型

問一位訴訟律師 AI 能否取代她,她連頭都不會抬起來。不能。問一位從未執業過法律的新創公司創辦人,他會告訴你這已經在發生了。他們看的是同樣的輸出結果。

老實說,創辦人說得有道理。法律摘要讀起來確實像法律摘要。合約看起來就像合約該有的樣子。程式碼能正常運行。如果把它放在專家的作品旁邊,大多數人很難分辨出差異。

那麼專家看到了什麼是其他人看不到的?漏洞。他們確切知道對手會如何在文件送達桌上的那一刻加以利用。

人們試圖解釋這種落差。有時他們歸咎於提示詞不好,有時假設更聰明的模型就能勝任。我認為智力是錯誤的評估維度。關鍵在於模擬深度。

一個簡單的 Slack 訊息範例:

你剛到新工作三週。你需要首席設計師審查你的設計稿,但她出了名地工作超載。你請 ChatGPT 起草一則 Slack 訊息。

AI 寫道:「嗨 Priya,當你有空的時候,可以請你看一下我的檔案並分享任何回饋嗎?我非常感謝你的觀點。完全不急,配合你的時間就好。謝謝!」

你在金融業的朋友說這很完美——禮貌,不會催人。但在公司待了三年的同事說:「別發這個。Priya 看到『不急,什麼時候都行』就會在腦中歸檔為不緊急。它會沉到其他十五封有實際截止日期的訊息下面。而且『請看一下』太模糊,她不知道這是 10 分鐘還是 2 小時的事。」

同事建議:「嗨 Priya,週五前能借我 15 分鐘嗎?新人導覽設計稿卡住了。我在導航模式上遇到困難,不想做錯方向。」

差異在於:有經驗的同事模擬了 Priya 的工作量、分類優先順序的方式,以及模糊請求在壓力下會如何被解讀。

現實世界中的對抗模型:

在商業、地緣政治、金融領域,環境會反擊。靜態分析會失敗,因為對方有你不知道的自身利益和資訊。你必須模擬: - 其他行為者可能的反應 - 他們隱藏的動機和限制 - 你的行動如何更新他們對你的認知模型

量化交易讓這變得可衡量:根據信號行動,別人察覺到,優勢衰減,有人搶先交易。市場本身就是其他行為者在反向建模你。

完美資訊 vs 不完美資訊賽局:

西洋棋具有完美資訊——每個棋子都可見,每個合法走法都已知。你的最佳走法不會因對手是誰而改變。AlphaGo/AlphaZero 不需要建模人類認知。

撲克牌不同——存在資訊不對稱。你不知道對手的牌,對手也不知道你的。詐唬存在是因為資訊是私密的。賽局變成遞迴的:我認為他們認為我很弱,所以他們會下注,所以我應該設陷阱。

Pluribus:對抗穩健性

Meta 的 Pluribus 被設計成無法被解讀。它計算了每一種可能手牌的行動方式,然後平衡策略使對手無法從其行為中提取資訊。人類對手試圖解讀它,但 Pluribus 的平衡頻率使那些解讀在統計上毫無意義。

LLM 的失敗模式:

LLM 被優化以產生人類評分者在孤立情境下認可的輸出。RLHF 推動模型趨向有幫助、禮貌、平衡——這些在單次評估中得分很高。但這在對抗性情境中是個糟糕的預設,因為它低估了二階效應。

模型學會模仿「一個合理的人會說什麼」,而非優化「什麼能在面對自利對手時存活」。

被建模:

人類談判者會注意到對方正在試探。他們會給出誤導性信號,出乎意料地反應以擾亂對方的判讀。LLM 做不到這點。給 LLM 一個「激進談判者」的提示,它會一致地執行該策略——這意味著人類可以試探、識別模式,並利用其可預測性。

人類可以建模 LLM。LLM 無法建模「自己正被建模」。這個差距是可被利用的。

為什麼「更高智力」不是解方:

要在預設情況下表現出對抗穩健性,模型必須: 1. 偵測到情境是策略性的(即使被包裝成合作性的) 2. 識別相關行為者及各自的優化目標 3. 模擬這些行為者如何解讀信號並做出調整 4. 選擇在各種可能反應下都保持有效的行動

問題不在於推理能力,而在於問題的結構。因果知識不在訓練資料中——它存在於從未被記錄的結果中。

專家的優勢:

領域專家透過壓力下的存活能力來評估產出: - 「這個措辭會觸發監管機構嗎?」 - 「這封禮貌的郵件是否意外地讓出了談判籌碼?」 - 「這個特定利害關係人會如何解讀這個模糊之處?」

LLM 在類西洋棋領域(程式碼、數學、事實研究)佔據優勢,這些領域的特點是: - 系統是確定性的 - 規則是固定且明確的 - 沒有重要的隱藏狀態 - 沒有行為者主動試圖對抗模型

但許多領域在技術核心上像西洋棋,在運作層面卻像撲克。專業軟體工程超越了類西洋棋的核心——理解模糊需求、預期 API 誤用、應對程式碼審查中的政治、考量組織動態。

即將來臨的碰撞:

隨著 LLM 被部署在採購、銷售、談判、政策、安全領域,人類對手不需要在智力上「擊敗模型」。他們只需要把模型推向失敗模式: - 激進的開場立場,知道模型會傾向妥協 - 模糊性,知道模型會善意地解讀 - 虛張聲勢,知道模型會照單全收 - 試探,知道模型不會因被解讀而調整

修復方案需要不同的訓練迴路:根據結果(你是否被利用了)而非訊息是否聽起來合理來訓練模型。這需要多代理環境,讓其他代理能夠反應、試探和調整。

結語:

「AI 能取代你的工作」的辯論混淆了產出品質與策略能力。LLM 產出看起來像專家作品,因為外行人評估的是連貫性、語氣和可信度。專家評估的是在具有隱藏狀態的對抗性多代理環境中的穩健性。

LLM 產出看起來像專家作品的產物。它們尚未產出能在專家面前存活的行動。

作者:Ankit Maloo


← 返回列表