據 Foresight News 報道,OpenAI 推出 PaperBench 基準測試,用於評估 AI 代理複製研究的能力。AI 需複製 ICML 2024 的 20 篇頂級論文,涉及理解論文、編寫代碼及執行實驗。
測試通過與原作者共同開發的細化評分標準進行,涵蓋 8316 個具體要求,由 LLM 評判。結果顯示,Claude 3.5 Sonnet (New) 結合開源框架表現最佳,平均複製得分 21.0%,但仍未超越人類基線。