遞歸語言模型(RLMs)是一種新穎的推論範式,旨在讓大型語言模型(LLMs)能夠處理任意長度的提示,遠遠超出其標準的上下文窗口。其核心概念是將長提示視為外部環境的一部分。LLM被置於一個讀取-求值-輸出循環(REPL)的程式設計環境中,提示則被儲存為一個變數。模型接著可以編寫程式碼來檢查、分解提示,並遞歸地呼叫自身處理提示片段,以程式化的方式逐步建立中間結果和最終答案。
此方法解決了現有長上下文處理技術的關鍵限制。標準LLM存在「上下文腐化」問題,即性能隨著提示變長而下降。常見的技術如上下文壓縮或濃縮,雖然能將內容摘要以適應窗口,但卻有遺失重要細節的風險。其他方法,例如編碼代理或自我委派方法,則受制於底層模型的上下文或輸出長度限制。
RLMs透過三項關鍵設計選擇克服了這些限制:
該研究使用前沿模型(GPT-5 和 Qwen3-Coder-480B)在四項不同複雜度的任務上評估RLMs:簡單的「大海撈針」任務(S-NIAH)、基於1K份文件的多跳問答任務(BrowseComp-Plus)、線性複雜度推理任務(OOLONG),以及一個合成的二次方複雜度配對推理任務(OOLONG-Pairs)。RLMs成功處理了比標準上下文窗口長兩個數量級的輸入,並且在效能上大幅超越了原始LLM、上下文壓縮、檢索代理和程式碼生成代理,尤其是在更長、更複雜的任務上,同時保持了可比的成本。
RLMs成功處理了比標準上下文窗口長兩個數量級的輸入,並且在效能上大幅超越了原始LLM、上下文壓縮、檢索代理和程式碼生成代理。
此外,作者對一個小型模型(Qwen3-8B)進行了後續訓練,使其具備原生遞歸能力。這個名為RLM-Qwen3-8B的模型,其平均性能比基礎模型提升了28.3%,並在三項長上下文任務上接近原始GPT-5的品質,這表明遞歸能力可以透過極少的訓練數據有效習得。
總而言之,遞歸語言模型提供了一個強大且通用的框架,透過利用符號化程式設計和遞歸,將LLM推論擴展到能處理極長上下文的範疇,並在多樣且具挑戰性的基準測試中展現了強勁的實證結果。