[2512.24601] Recursive Language Models

來自：https://arxiv.org/pdf/2512.24601
日期：2026-02-10

遞歸語言模型：突破大型語言模型上下文限制的新推論範式

遞歸語言模型（RLMs）是一種新穎的推論範式，旨在讓大型語言模型（LLMs）能夠處理任意長度的提示，遠遠超出其標準的上下文窗口。其核心概念是將長提示視為外部環境的一部分。LLM被置於一個讀取-求值-輸出循環（REPL）的程式設計環境中，提示則被儲存為一個變數。模型接著可以編寫程式碼來檢查、分解提示，並遞歸地呼叫自身處理提示片段，以程式化的方式逐步建立中間結果和最終答案。

此方法解決了現有長上下文處理技術的關鍵限制。標準LLM存在「上下文腐化」問題，即性能隨著提示變長而下降。常見的技術如上下文壓縮或濃縮，雖然能將內容摘要以適應窗口，但卻有遺失重要細節的風險。其他方法，例如編碼代理或自我委派方法，則受制於底層模型的上下文或輸出長度限制。

RLMs透過三項關鍵設計選擇克服了這些限制：

給予LLM一個指向用戶提示的符號化句柄，而非將整個提示載入上下文窗口。
允許最終輸出在環境中以符號化方式建構，而非在模型的輸出限制內以自回歸方式生成。
實現真正的符號化遞歸，讓程式碼能夠以程式化方式多次呼叫LLM處理提示片段，其工作量可能與提示長度呈線性或二次方增長。

實證評估與效能表現

該研究使用前沿模型（GPT-5 和 Qwen3-Coder-480B）在四項不同複雜度的任務上評估RLMs：簡單的「大海撈針」任務（S-NIAH）、基於1K份文件的多跳問答任務（BrowseComp-Plus）、線性複雜度推理任務（OOLONG），以及一個合成的二次方複雜度配對推理任務（OOLONG-Pairs）。RLMs成功處理了比標準上下文窗口長兩個數量級的輸入，並且在效能上大幅超越了原始LLM、上下文壓縮、檢索代理和程式碼生成代理，尤其是在更長、更複雜的任務上，同時保持了可比的成本。

RLMs成功處理了比標準上下文窗口長兩個數量級的輸入，並且在效能上大幅超越了原始LLM、上下文壓縮、檢索代理和程式碼生成代理。

模型微調與遞歸能力學習

此外，作者對一個小型模型（Qwen3-8B）進行了後續訓練，使其具備原生遞歸能力。這個名為RLM-Qwen3-8B的模型，其平均性能比基礎模型提升了28.3%，並在三項長上下文任務上接近原始GPT-5的品質，這表明遞歸能力可以透過極少的訓練數據有效習得。

總結

總而言之，遞歸語言模型提供了一個強大且通用的框架，透過利用符號化程式設計和遞歸，將LLM推論擴展到能處理極長上下文的範疇，並在多樣且具挑戰性的基準測試中展現了強勁的實證結果。

← 返回列表