Quantifying infrastructure noise in agentic coding evals

來自：https://www.anthropic.com/engineering/infrastructure-noise
日期：2026-02-08

# 量化基礎設施噪音對自主編碼評估的影響

**摘要：** 基礎設施配置能顯著影響自主編碼基準測試分數，有時造成的差異甚至超過頂尖模型在排行榜上的分數差距。在內部實驗中，Terminal-Bench 2.0 在資源最充足與最匱乏的設定下，分數差距達 6 個百分點（p < 0.01）。

## 問題緣起

Anthropic 在 Google Kubernetes Engine 叢集上校準 Terminal-Bench 2.0 時，發現其分數與官方排行榜不符，高達 6% 的任務因與模型能力無關的 Pod 錯誤而失敗。此差異源於執行方法：他們的實作將每項任務的資源規格同時視為下限與硬性上限，一旦超出限制便立即終止容器。Terminal-Bench 排行榜則採用更寬容的沙箱供應商，允許暫時超額分配資源。

## 實驗發現

在六種資源配置（從嚴格的 1 倍執行到無上限）下運行 Terminal-Bench 2.0 顯示：

- 成功率隨資源餘裕增加而提升 - 基礎設施錯誤率從嚴格執行時的 5.8% 降至無上限時的 0.5% - 在 1 倍至 3 倍資源之間，成功分數的波動在噪音範圍內（p=0.40） - 超過 3 倍後，成功率上升速度超過基礎設施錯誤率下降速度，無上限資源相較 1 倍資源顯示出 +6 個百分點的提升（p < 0.01） - 如 `rstan-to-pystan` 和 `compile-compcert` 等任務在記憶體餘裕增加後有顯著改善

## 對測量的影響

在 Terminal-Bench 規格的約 3 倍以內，額外資源主要解決基礎設施可靠性問題，而非使評估變得更簡單。超過 3 倍後，資源開始積極協助智能體解決先前無法解決的問題，從而改變了評估的測量內容：

- 嚴格限制獎勵高效策略 - 寬鬆限制獎勵能利用可用資源的智能體 - 不同模型有不同預設方法，資源配置決定了哪些方法能成功

此模式在 SWE-bench 上也成立，儘管幅度較小（5 倍資源相較 1 倍資源高出 1.54 個百分點）。

## 其他變異來源

資源分配並非唯一的隱藏變數。時間限制、叢集健康狀態、硬體規格、並發等級、出口頻寬，甚至 API 延遲的時段性波動，都可能影響分數。自主評估是端到端的系統測試，其中任何組件都可能成為干擾因素。

## 建議

1. **理想做法**：在相同的硬體條件下運行評估，以實現完美的可重現性 2. **實務做法**：為每項任務指定保證分配量和硬性終止閾值參數，而非單一固定值 3. **校準**：設定下限與上限之間的區間，使分數落在彼此的噪音範圍內（例如，Terminal-Bench 2.0 中 3 倍上限將基礎設施錯誤減少三分之二，同時保持分數提升幅度適中） 4. **文件記錄**：將資源配置視為一級實驗變數 5. **保持懷疑**：在評估配置被記錄並匹配之前，對低於 3 個百分點的排行榜差異持懷疑態度

## 重要性

基準測試分數日益影響部署決策，但微小差異可能反映的是基礎設施變異，而非真正的能力差距。若無標準化的設定配置，將難以區分真實能力差異與「更大虛擬機」效應。

← 返回列表