從 Palantir 和 Two Sigma 到將 Goodfire 打造成可行動的機制解釋性的典範,Mark Bissell(技術人員)和 Myra Deng(產品負責人)試圖透過提供 API、實現真實企業部署,以及最近以 12.5 億美元估值完成 1.5 億美元 B 輪融資,將「窺探模型內部」轉變為可重複的生產工作流程。
在這一集中,我們深入探討了 Goodfire 的核心賭注:AI 生命週期仍然存在根本性問題,因為我們唯一可靠的控制是數據,我們通過後訓練、RLHF 和微調「通過吸管吸取監督」,希望模型學習正確的行為,同時悄悄吸收錯誤的行為。Goodfire 的答案是在人類和模型之間建立雙向介面:讀取內部發生的事情,精確編輯它,並最終在訓練期間使用解釋性,使客製化不僅僅是蠻力猜測。
Mark 和 Myra 講解了當你停止將解釋性視為實驗室演示並開始將其視為基礎設施時的樣子:添加幾乎零延遲的輕量級探測器、可以在推理時運行的令牌級安全過濾器,以及在混亂約束下存活的解釋性工作流程(多語言輸入、合成到真實的轉移、監管領域、無法訪問敏感數據)。我們還實時了解了「前沿規模解釋」在操作上的含義(即通過針對內部特徵實時引導萬億參數模型),以及為什麼相同的工具可以乾淨地推廣到語言模型、基因組學、醫學影像和「像素空間」世界模型。
## 討論內容
**Myra + Mark 的路徑**:Palantir(醫療系統、前線部署工程)→ Goodfire 早期團隊;Two Sigma → 產品負責人,將前沿解釋性研究轉化為平台和現實世界部署
**「解釋性」在實踐中的實際意義**:不僅僅是事後探測,而是跨完整 AI 生命週期(數據策展 → 後訓練 → 內部表示 → 模型設計)的更廣泛「深度學習科學」方法
**為什麼後訓練是第一個大楔子**:針對意外行為(如獎勵黑客攻擊、諂媚、客製化期間學到的雜訊)的「外科手術編輯」,以及有針對性的遺忘和偏見消除的夢想,而不會破壞能力
**SAE 與探測器在現實世界中的應用**:為什麼 SAE 特徵空間有時在下游檢測任務(幻覺、有害意圖、PII)中表現不如在原始激活上訓練的分類器,以及這對「乾淨概念空間」的意義
**Rakuten 生產部署**:部署基於解釋性的令牌級 PII 檢測,以防止將私人數據路由到下游提供商,以及棘手的約束:不在真實客戶 PII 上訓練、合成到真實的轉移、英語 + 日語以及標記化怪癖
**為什麼解釋可以在操作上比 LLM 判斷護欄更便宜**:探測器輕量、低延遲,不需要在循環中託管第二個大型模型
**前沿規模的實時引導**:演示實時引導 Kimi K2(約 1T 參數)並通過 SAE 管道找到特徵、通過 LLM 自動標記,以及在多層切換「Gen-Z 俚語」特徵而不破壞工具使用
**幻覺作為內部信號**:模型具有潛在不確定性/「取悅用戶」電路的情況,您可以檢測並可能比黑盒方法更直接地緩解
**引導與提示**:激活引導和上下文學習之間的聯繫比人們想像的更緊密的新興觀點,包括映射兩者之間的工作(甚至對於越獄式行為)
**科學的解釋性**:使用相同的工具跨領域(基因組學、醫學影像、材料)來調試虛假相關性並提取新知識,包括與主要合作夥伴的早期生物標誌物發現工作
**世界模型 +「像素空間」解釋性**:為什麼視覺/視頻模型使概念更容易看到,這如何加速反饋循環,以及為什麼機器人/世界模型合作夥伴是特別有趣的設計合作夥伴
**北極星**:從「數據輸入,權重輸出」轉向有意的模型設計,專家可以直接傳達目標和約束,而不僅僅是通過獎勵信號和蠻力後訓練
---
## Goodfire AI 網站:https://goodfire.ai LinkedIn:https://www.linkedin.com/company/goodfire-ai/ X:https://x.com/GoodfireAI
## Myra Deng 網站:https://myradeng.com/ LinkedIn:https://www.linkedin.com/in/myra-deng/ X:https://x.com/myra_deng
## Mark Bissell LinkedIn:https://www.linkedin.com/in/mark-bissell/ X:https://x.com/MarkMBissell
---
完整的視頻訪談和時間戳已包含在原始郵件中。
來源:Latent.Space 播客 發送者:swyx@substack.com 查看原文:https://www.latent.space/p/goodfire