講者解釋,單鏈蛋白質預測的突破性進展,依賴於解碼演化上的關聯性:當一個位置發生突變時,為了維持三維結構的穩定,另一個位置也必須發生相應的突變,這暗示了這兩個位置在空間上是鄰近的。他們區分了結構預測(得到最終答案)與摺疊(動力學過程),並指出該領域在模擬後者方面仍然表現不佳,包括中間狀態和蛋白質動態。雖然模型利用演化統計學來找到能量景觀中的正確「谷地」,但它們很可能僅具備「淺層理解」的物理知識來精煉局部最小值。
AlphaFold 3 和 Boltz-1 的一個關鍵躍進,是從回歸(預測單一靜態座標)轉向生成式擴散方法,該方法從後驗分佈中進行取樣。這種轉變使得模型能夠表現多種構象狀態,並避免了當真實情況不明確時,回歸模型常見的「平均化」效應。儘管有通用型變換器的「苦澀教訓」,講者認為,由於分子數據固有的三維幾何約束,等變架構對於生物數據而言仍然具有壓倒性的優勢。
Boltz-2(以及 BoltzGen)將結構與序列預測視為單一任務,方法是將胺基酸身分編碼到預測結構的原子組成中。在設計時,使用者無需提供序列,而是輸入空白標記和一個高階「規格」(例如一個抗體框架),模型則會解碼出三維結構及其對應的胺基酸序列。雖然模型置信度是常見的指標,但 Boltz-2 更專注於親和力預測——量化一個設計出的結合劑與其目標的結合緊密程度。
為了證明模型不僅僅是「複述」已知數據,Boltz 在 9 個在 PDB 中完全沒有已知相互作用記錄的目標上測試其設計,其中三分之二成功產生了奈米莫爾級別的結合劑。新推出的 Boltz Lab 平台提供了用於蛋白質和小分子設計的「智能體」,透過專有的 GPU 核心進行優化,運行速度比開源版本快 10 倍。該平台旨在轉化持懷疑態度的藥物化學家,允許他們進行平行篩選,並運用其直覺來過濾模型輸出,採用了人機協同的方法。
對話始於挑戰性基準測試對維持領域誠信的重要性,指出雖然單體蛋白質預測已取得巨大進展,但其他模態仍然困難重重。他們澄清,「已解決」的問題指的是預測單鏈蛋白質結構,這高度依賴來自共演化景觀的演化線索。沒有這些線索,性能就會下降。他們區分了結構預測與摺疊,後者是達到摺疊狀態的動態過程,目前較少被理解。
蛋白質被描述為身體的機器,對於理解生物功能和疾病至關重要。預測結構就像從零件清單中看到汽車的最終形態,而理解摺疊則像是知道汽車是如何製造的,這對於干預錯誤摺疊疾病很重要。蛋白質摺疊問題在歷史上被認為是一個 NP 難的組合挑戰,這使得機器學習的成功令人驚訝。
討論涵蓋了共演化線索如何運作:一個胺基酸的突變會影響其三維空間中的鄰居,因此在演化過程中出現的相關突變暗示了空間上的鄰近性,引導模型進入能量景觀的正確區域。模型很可能利用這些線索接近目標,然後應用淺層的物理理解來找到低能量狀態。一個類比是,AlphaFold 的架構使用演化資訊(多重序列比對)來推斷成對接觸,然後將其精煉成距離矩陣以解碼結構。
轉向 AlphaFold3 後,焦點轉移到模擬相互作用——蛋白質與小分子、其他蛋白質、RNA、DNA 的相互作用——這些對於功能和干預(例如藥物設計)至關重要。關鍵的進步包括從回歸轉向生成式建模以處理不確定性和多重狀態,以及為所有模態創建統一的模型。在架構上,這涉及擴散模型和等變網路。
講者強調,由於幾何約束,專門的等變架構在處理生物分子數據時優於通用變換器。Boltz 的方法統一了結構和序列預測,實現了從高階規格出發的生成式設計。在新穎目標上的驗證證明了其泛化能力。Boltz Lab 平台將此產品化,提供速度和人機協同工具,以橋接計算設計與實驗直覺。