作者:Chris Dixon,a16z crypto創始人;Elizabeth Harkavy,a16z crypto合夥人;翻譯:金色財經xiaozou

現代人工智能系統不僅依賴於算力和算法,更離不開人類反饋。企業採用人類反饋強化學習(RLHF)和直接偏好優化(DPO)等訓練後(post-training)優化技術來改進模型。這些技術能減少偏見,使模型對提示詞作出更高質量、更連貫的響應——這對加速AI發展至關重要。模型評估同樣關鍵,但只有先界定何爲"更好",才能實現模型優化。

挑戰由此產生:企業不願共享——他們將數據和訓練流程視爲機密。這導致AI模型評估只能依賴封閉系統的有限信息,或是脫離實際應用的靜態基準測試,嚴重製約了模型的改進空間。用戶也處於信息盲區,既不清楚自己的反饋如何影響模型,甚至連反饋是否被採用都無法確認。部分模型排行榜和衆包平臺試圖改善透明度,但通常既不支持用戶追溯自身貢獻,也不提供實質參與回報。那些宣稱公平透明的平臺,往往依賴誠信而非可執行標準。

我們相信加密技術能爲這個AI灰色地帶帶來透明度和所有權。區塊鏈既能幫助貢獻者便捷獲取獎勵,又能爲AI開發者提供反饋數據質量和來源的可靠保證。用戶獲得激勵,開發者獲得可信數據,所有人都能在這個開放市場中實現雙向審計。爲此我們領投了消費級產品Yupp的3300萬美元種子輪,該平臺讓每個人都能免費探索和對比最新AI模型。

Yupp採用衆包模式進行模型評估:用戶輸入提示詞,並行查看多個AI生成的響應,然後選出最佳答案。他們的選擇會生成帶有數字簽名的偏好數據"數據包",這些數據對AI訓練後優化和評估極具價值。用戶不僅能免費使用最新模型,還能根據提供的反饋獲得獎勵。

Yupp的設計將人類判斷轉化爲可再生的經濟資源。隨着新交互數據的產生,舊數據會"過期",從而形成自然飛輪:更多采用帶來更新鮮的評估;更新鮮的評估催生更優質的模型;更優質的模型吸引更多使用。所有參與者——無論是普通用戶還是AI模型開發者——都能加入其中,並看到適用於所有人的透明規則,確保市場保持可信的中立性。無人能隱藏得分,也無人能操縱獎勵或結果。

創始團隊兼具AI與加密領域的深厚經驗。他們曾在推特早期共同開發過面向消費者的機器學習產品。Pankaj Gupta曾任Google Pay和Coinbase的全球消費端工程負責人,Gilad Mishne曾是GoogleX的機器學習負責人。初創團隊匯聚了來自谷歌、Coinbase及頂尖實驗室的高級工程師。

AI需要基於大規模人類輸入的強健可靠評估體系,而加密技術正是實現這一目標的信任機器。通過讓全球用戶貢獻改進模型的反饋,Yupp致力於成爲未來AI的基礎評估層。我們很榮幸能支持Yupp,並期待協助他們構建鏈上反饋閉環,確保AI創新的成果由所有建設者共享。