OpenAI 推出 PaperBench 基準測試評估 AI 代理複製研究能力

--・通過驗證的幣安官方帳戶

據 Foresight News 報道，OpenAI 推出 PaperBench 基準測試，用於評估 AI 代理複製研究的能力。AI 需複製 ICML 2024 的 20 篇頂級論文，涉及理解論文、編寫代碼及執行實驗。
測試通過與原作者共同開發的細化評分標準進行，涵蓋 8316 個具體要求，由 LLM 評判。結果顯示，Claude 3.5 Sonnet (New) 結合開源框架表現最佳，平均複製得分 21.0%，但仍未超越人類基線。

免責聲明：包含來自第三方的見解。非財務建議。可能包含贊助內容。請參閱條款。

OpenAI 推出 PaperBench 基準測試評估 AI 代理複製研究能力

實時新聞

熱門文章