Quantifying infrastructure noise in agentic coding evals

來自:https://www.anthropic.com/engineering/infrastructure-noise
日期:2026-02-08

# 量化基礎設施噪音對自主編碼評估的影響

**摘要:** 基礎設施配置能顯著影響自主編碼基準測試分數,有時造成的差異甚至超過頂尖模型在排行榜上的分數差距。在內部實驗中,Terminal-Bench 2.0 在資源最充足與最匱乏的設定下,分數差距達 6 個百分點(p < 0.01)。

## 問題緣起

Anthropic 在 Google Kubernetes Engine 叢集上校準 Terminal-Bench 2.0 時,發現其分數與官方排行榜不符,高達 6% 的任務因與模型能力無關的 Pod 錯誤而失敗。此差異源於執行方法:他們的實作將每項任務的資源規格同時視為下限與硬性上限,一旦超出限制便立即終止容器。Terminal-Bench 排行榜則採用更寬容的沙箱供應商,允許暫時超額分配資源。

## 實驗發現

在六種資源配置(從嚴格的 1 倍執行到無上限)下運行 Terminal-Bench 2.0 顯示:

- 成功率隨資源餘裕增加而提升 - 基礎設施錯誤率從嚴格執行時的 5.8% 降至無上限時的 0.5% - 在 1 倍至 3 倍資源之間,成功分數的波動在噪音範圍內(p=0.40) - 超過 3 倍後,成功率上升速度超過基礎設施錯誤率下降速度,無上限資源相較 1 倍資源顯示出 +6 個百分點的提升(p < 0.01) - 如 `rstan-to-pystan` 和 `compile-compcert` 等任務在記憶體餘裕增加後有顯著改善

## 對測量的影響

在 Terminal-Bench 規格的約 3 倍以內,額外資源主要解決基礎設施可靠性問題,而非使評估變得更簡單。超過 3 倍後,資源開始積極協助智能體解決先前無法解決的問題,從而改變了評估的測量內容:

- 嚴格限制獎勵高效策略 - 寬鬆限制獎勵能利用可用資源的智能體 - 不同模型有不同預設方法,資源配置決定了哪些方法能成功

此模式在 SWE-bench 上也成立,儘管幅度較小(5 倍資源相較 1 倍資源高出 1.54 個百分點)。

## 其他變異來源

資源分配並非唯一的隱藏變數。時間限制、叢集健康狀態、硬體規格、並發等級、出口頻寬,甚至 API 延遲的時段性波動,都可能影響分數。自主評估是端到端的系統測試,其中任何組件都可能成為干擾因素。

## 建議

1. **理想做法**:在相同的硬體條件下運行評估,以實現完美的可重現性 2. **實務做法**:為每項任務指定保證分配量和硬性終止閾值參數,而非單一固定值 3. **校準**:設定下限與上限之間的區間,使分數落在彼此的噪音範圍內(例如,Terminal-Bench 2.0 中 3 倍上限將基礎設施錯誤減少三分之二,同時保持分數提升幅度適中) 4. **文件記錄**:將資源配置視為一級實驗變數 5. **保持懷疑**:在評估配置被記錄並匹配之前,對低於 3 個百分點的排行榜差異持懷疑態度

## 重要性

基準測試分數日益影響部署決策,但微小差異可能反映的是基礎設施變異,而非真正的能力差距。若無標準化的設定配置,將難以區分真實能力差異與「更大虛擬機」效應。


← 返回列表