👊 OpenAI and Anthropic go model for model

來自:The Rundown AI
日期:2026-02-06

**早安,AI 愛好者們。** 昨天是超級盃攻擊廣告。今天,OpenAI 和 Anthropic 讓模型來說話,在一個下午內推出了代理編碼、自我改進 AI 和企業自動化的旗艦版本。

**今日 AI 重點:**

* OpenAI 的 GPT-5.3-Codex 幫助構建自己 * Anthropic 的 Opus 4.6 具有「代理團隊」,1M 上下文 * 使用 Claude 在 Excel 中縮短報告時間 * OpenAI 的 Frontier 管理「AI 同事」

----------

**最新發展**

----------

#### 🚀 **OpenAI 的 GPT-5.3-Codex 幫助構建自己**

**概要:** OpenAI 剛剛推出了 GPT-5.3-Codex,這是一個新的旗艦編碼模型,將其最佳的編程和推理能力合併成一個更快的套件——同時也作為其自己訓練和部署過程的關鍵工具。

**細節:**

* 早期版本的 5.3-Codex 被用來在其自己的訓練運行中查找錯誤、管理其推出並分析評估結果。 * Codex 在代理編碼基準測試(如 SWE-Bench Pro 和 Terminal-Bench 2.0)中名列前茅,在後者上比 Opus 4.6 高出 12%。 * 在 OSWorld(測試 AI 控制桌面電腦的基準)上,該模型得分為 64.7%——幾乎是之前版本 38.2% 的兩倍。 * OpenAI 將該模型標記為其首個「高」網路安全風險評級,並承諾提供 1000 萬美元的 API 積分來資助防禦性安全研究。

**為何重要:** 自我改進的角度是頭條新聞,Anthropic 的 Dario Amodei 最近也表示 Claude 正在幫助設計其繼任者。

----------

#### 🚀 **Anthropic 的 Opus 4.6 具有「代理團隊」,1M 上下文**

**概要:** Anthropic 發布了 Claude Opus 4.6,這是該公司最強大的新模型——在 Claude Code 中具有多代理協作功能、龐大的上下文視窗以及新的 Office 整合。

**細節:**

* Claude Code 中的新「代理團隊」功能允許多個 AI 代理拆分單個項目並同時工作。 * Opus 4.6 首次為 Anthropic 的 Opus 層級帶來 1M 令牌上下文視窗。 * 新的 Excel 和 PowerPoint 側邊欄讓 Claude 讀取使用者現有的模板並原生構建模型或簡報。 * 4.6 在大多數代理基準測試中名列前茅,在 ARC-AGI-2 上躍升至近 70%。

**為何重要:** Codex 5.3 和 Opus 4.6 的發布為各方面帶來了重大的能力提升。

----------

#### 📊 **使用 Claude 在 Excel 中縮短報告時間**

**概要:** 使用 Claude 作為試算表架構師來處理資料清理、表格格式化和顏色編碼。

**關鍵步驟:**

1. 從 Microsoft Marketplace 安裝 Claude 的 Excel 應用程式 2. 提示 Claude 制定計劃來清理和組織您的資料 3. 要求 Claude 建立主儀表板 4. 使用圖表建立提示將資料視覺化

**專業提示:** 要求 Claude 檢視資料並制定計劃可顯著改善其輸出。

----------

#### 💼 **OpenAI 的 Frontier 管理「AI 同事」**

**概要:** OpenAI 推出了 Frontier,這是一個新平台,供企業部署和管理 AI 代理,就像新員工一樣——包括入職、權限和績效評估。

**細節:**

* Frontier 連接到現有的企業系統,如 CRM 和票務工具。 * 內建的評估和反饋循環讓代理通過經驗學習。 * 每個代理都在自己的配置檔案下運行,具有範圍訪問權限和硬限制。 * HP、Oracle、State Farm 和 Uber 是首批採用者。

**為何重要:** 模型能力正在使 AI 同事成為現實,而協調它們的系統將是寶貴的資產。

----------

**快速新聞**

**熱門 AI 工具:**

* GPT-5.3-Codex - OpenAI 的新 SOTA 代理編碼模型 * Claude Opus 4.6 - Anthropic 最強大的模型升級 * OpenAI Frontier - 管理 AI 代理的企業平台 * Model Council - Perplexity 查詢多個模型的工具

**其他新聞:**

* **Perplexity** 推出了 Model Council,可同時透過多個 AI 模型執行查詢 * **Roblox** 透過其 Cube AI 基礎模型引入了 4D 生成 * **Lotus Health** 為其免費 AI 驅動的初級保健平台籌集了 3500 萬美元 * **Meta** 正在為其 Vibes AI 視訊平台推出獨立應用程式 * **METR** 發布了分析,顯示 GPT-5.2 可以處理 6 小時以上的工程任務

----------

_Rowan、Joey、Zach、Shubham 和 Jennifer——The Rundown 背後的人類_


← 返回列表