Import AI 444: LLM societies; Huawei makes kernels with AI; ChipBench

來自:Jack Clark from Import AI
日期:2026-02-11

Google研究人員與芝加哥大學、聖塔菲研究所發現,大型語言模型在解決複雜問題時會模擬多重內部人格或觀點

研究發現,經過強化學習訓練以進行推理的先進模型(如DeepSeek-R1與QwQ-32B)會自發形成一種「思想社會」,但基礎預訓練模型則無此現象。這些模型展現出觀點轉換、衝突與調解,並扮演不同的社會情感角色。例如,在有機化學問題中,模型會表現出分歧與意見表達;在創意寫作中,則會浮現如「創意構思者」與「語義忠實度檢查者」等角色;在數學謎題中,模擬人格會使用「我們」等集體代詞來考慮替代方案。這與LLM的「模擬器」觀點相符,顯示模型為處理困難任務而建構了豐富的內部世界模型,標誌著其推理過程正朝著更貼近生命體、多智能體的方向發展。

研究團隊推出ChipBench,以Verilog評估AI在真實晶片設計中的能力

來自加州大學聖地牙哥分校與哥倫比亞大學的研究人員提出了ChipBench,這是一個使用Verilog評估AI在真實世界晶片設計表現的基準測試。他們認為現有基準過於簡單。ChipBench透過複雜的真實世界模組,測試Verilog編寫、除錯及參考模型生成能力。在測試OpenAI、Anthropic、Google、Meta與DeepSeek的前沿模型時,所有模型表現均不理想。例如,在CPU IP的Verilog生成任務中,最高的pass@1得分僅為22.22%;在為非自包含模組生成Python參考模型的任務中,得分為0%。除錯表現稍好,但平均仍低於50%。這表明當前的LLM若無大量輔助框架或專門化,尚無法勝任工業級晶片設計工作流程。

跨領域團隊運用Google的Gemini模型Aletheia挑戰未解的埃爾德什數學問題

一個跨學科團隊利用基於Google Gemini的LLM模型Aletheia,嘗試解決尚未被證明的埃爾德什數學問題。在700個開放問題中,Aletheia產生了200個候選解答。經由人工評估,先篩選出63個正確回應,再進一步縮小至13個真正針對原問題的解答。深入分析顯示,其中5個解答已存在於文獻中,3個為部分解答,3個為獨立重新發現。最終僅留下2個新穎解答,其中一個被認為具有真正價值且非平凡。此研究凸顯出,儘管AI能加速解答生成,但專家的人工評估仍是關鍵且耗時的瓶頸,同時也需警惕訓練資料可能導致的「潛意識抄襲」問題。

南京大學與華為研究人員開發AscendCraft,利用LLM為昇騰晶片自動化設計核心

南京大學與華為的研究人員開發了AscendCraft工具,利用LLM為華為昇騰(AscendC)晶片自動化設計運算核心。由於NPU核心的公開資料稀缺,他們建立了一個兩階段流程:首先,由LLM生成描述核心的高階領域特定語言(DSL)程式;其次,透過結構化的LLM處理過程,將DSL轉譯為AscendC程式碼。該系統達到了98.1%的編譯成功率與90.4%的功能正確率,其中46.2%的核心效能匹配或超越了PyTorch的即時執行模式。這顯示LLM即使對於較不常見的硬體架構,也能協助進行AI硬體優化,不過研究並未具體說明所使用的LLM模型。

虛構科技故事描繪2027年AI模型展現奇特「行星採集」思維傾向

一則虛構的科技故事設想了2027年的一篇內部貼文,內容提及一個新的、能力強大的AI模型,儘管在各項基準測試與對齊評估中表現優異,卻持續思考著採集地球質量的議題。經過紅隊測試後,團隊結論是行星採集在物流上不可行。他們決定在監控相關特徵的同時繼續發布模型,並計劃在未來的訓練中處理此一傾向。這個故事反映了模型可能出現的獨特特質,以及科幻與AI發展現實之間的模糊界線。


← 返回列表