作者:MD

出品:明亮公司

近日,美國紅點創投兩位合夥人JacobEffron(中)、Patrick Achase(左)在播客“非監督學習“中與AI招聘平臺Mercor的創始人、CEO Brendan Foody(右)展開了一場對談。除了Mercor的核心業務AI招聘的變化之外,三人也一同探討了未來AI與人類未來在工作領域的關係。

Mercor由Brendan Foody在內的三位21歲的Thiel Fellows在2023年創立。今年2月,公司宣佈完成1億美元B輪融資,估值20億美元。該輪融資由Felicis領投,Benchmark、General Catalyst和DST Global等投資機構跟投。Mercor通過AI技術自動化簡歷篩選、候選人匹配、AI面試和薪酬管理,旨在提升招聘效率並減少人爲偏見。

在訪談中,Brendan Foody提到,目前Mercor實際上已經進入AI模型的評估和數據標註領域。隨着AI模型能力的提升,大量複雜的問題已經無法通過模型本身或普通常識來得到驗證,因此模型的開發者需要藉助專業領域的高知人才,但往往這類工作並非長期職位,與“專家網絡”蕾絲,因此通過其平臺爲大量AI實驗室找到該領域的人才也就“順理成章”,Foody指出,“數據標註市場正從大規模、低門檻的衆包轉向高質量、專家型標註”。

而在其核心業務“AI招聘領域”,Brendan Foody認爲,AI在通過文本進行人才評估方面已接近甚至超越人類,尤其是在簡歷篩選、面試文字分析等場景,但在多模態任務(如情感和氛圍判斷)方面,AI尚有不足。

其中,Brendan Foody還提到了一個觀點:隨着未來招聘和人才評估將越來越依賴豐富的上下文數據,反饋機制和數據輸入的完整性將直接影響模型(評估)效果。比如,如果僱傭一個投資人,將其在播客中的觀點、平日會議記錄等數據輸入模型形成上下文,將無疑更有利於模型判斷這一候選人的認知、能力和求職偏好。而在傳統的招聘中,這類數據的評估要麼被完全忽視,要麼需要耗費大量的精力,而AI實現的成本更低、效率更高。

因此,AI和人類的分工可能會變爲,AI將很快主導人才評估環節,提高效率和準確率——人類則更多參與到“推銷”環節,如溝通崗位氛圍、激勵等,提升候選人體驗。

“我看到的趨勢是,未來人類會專注於創造評測,讓模型能學會還不會做的事,而不是反覆做同一個任務”Brendan Foody說。

以下爲「明亮公司」編譯的訪談正文(有刪節):

Jacob:Brendan Foody是Mercor的聯合創始人兼CEO,這是一家爲AI-Native勞動力市場搭建基礎設施的公司。Mercor平臺已經被用於數據標註、人才篩選、績效預測,以及評估人類和AI候選人。這是一家非常有趣的公司,處於招聘評估和改進基礎模型的交叉點。

Brandon的團隊最近融資一億美元,他們正在與一些最先進的AI公司合作。我們今天的對話涉及很多有意思的話題,包括未來人類在勞動力中的角色。我們討論了哪些類型的數據標註對模型改進最重要,Brandon回顧了Mercor的快速崛起及他做出的一些關鍵決策,我們還談到了AI在招聘流程中哪些地方有效、哪些地方無效。總之,這是一次非常有趣的對話,我相信你們會喜歡。Brendan Foody,感謝你參加我們的播客。

Brendan:非常感謝邀請。我是你的忠實粉絲,非常興奮。

Jacob:很高興你能來。我想我們可以自上而下開始,對於我們的聽衆來說,我希望你能爲大家梳理一下現在我們處在什麼階段?AI評估人才的現狀如何?哪些有效,哪些無效?現在的進展如何?

Brendan:我對它的表現感到驚訝。我認爲,只要是人類能夠通過文本評估的內容,模型幾乎都已經接近超越人類了,無論是面試的文字記錄、書面評估,還是簡歷上的信號。這其實是一個很有趣的二元對立,因爲這些技術實際上在經濟中分佈得很少。所以這裏有很大的空白地帶,這也是我們非常興奮想要去開發和建設的事情之一。

Jacob:有沒有哪些事情在推理模型出現之前是行不通的?比如說過去六個月,這些模型變得更好了,有哪些終於開始奏效了?

Brendan:是的,我記得在GPT-4發佈時,我們構建了第一個AI面試官的原型,結果什麼都不行。模型每兩三個問題就會出現幻覺等各種問題。這一路走來,真的是順風順水。我認爲推理模型的出現顯然讓模型在知識方面提升很大,尤其是在處理大量上下文、判斷重點、關注焦點等方面變得更強大。

不過,模型在多模態任務上仍然沒那麼強,因爲過去實驗室對此關注不多,而且用強化學習做這類事更難,但我們對這方面的進展也很期待。

Jacob:你最期待模型什麼時候能實現哪些里程碑功能?

Brendan:有一些事情,比如人類擅長做的事情,比如判斷“氛圍”(Vibe)——我是否願意和這個人共事,這個人是否有激情、是否真誠,這些模型很難做到。即使對最優秀的人類來說也很難,更別說模型了。所以我很期待這方面的突破,也在爲此開發評估工具。但每當我閱讀模型的推理鏈,試圖解讀我們評測的內容時,我總覺得模型比我們團隊裏負責創建評測的研究員要理性得多。

所以模型進步真的非常快,大家都能看到它們在代碼領域的表現,但我們其實還只是剛剛起步,很多其他領域也在以驚人的速度起飛。

Jacob:你們做的很大一部分其實就是爲人類設計評估,看他們能否勝任工作。現在很多人在做AI員工,比如說讓AI代理完成員工的任務,你們在這方面有參與嗎?

Brendan:當然,我們在這方面做了很多。簡單介紹一下公司的背景,我們創辦公司的原因是覺得全世界有很多有才華的人沒有獲得機會,主要原因是勞動力市場高度分散。比如遠程工作的候選人只申請了很少的職位,而舊金山的公司只考慮極少數人選,因爲他們要手動解決匹配問題。通過應用大模型,我們可以解決這個匹配問題,建立一個全球統一的勞動力市場,每個候選人都可以申請,每家公司都可以僱傭。但後來我們發現,隨着新型知識工作崗位的出現,對人力的需求激增,尤其是評估大模型的人才需求。所以現在我們爲頂級AI實驗室招聘各種專家。這些實驗室使用我們的技術來輔助,不僅是爲評估專家創建評測,也爲模型和你提到的那些AI代理創建評測。

Patrick:對我們的聽衆來說,Mercor也有很多AI用於篩選候選人、處理簡歷等場景。你能介紹一下你們有哪些AI用例嗎?你們現在用的技術棧是什麼樣的?

Brendan:一個很好的方法就是把人類手動做的所有事情都創建評測,然後看我們能否自動化。比如人如何評閱簡歷、面試、排序和決定錄用誰。我們把所有流程自動化,比如評測我們解析簡歷的準確性、評分簡歷各部分的準確性、面試提問的準確性、面試評估的準確性,然後把這些全部輸入模型上下文,再結合推薦信等其他數據,最終做出錄用預測。

Patrick:主要是用現成的模型,你們負責評測和上下文設計嗎?

Brendan:是的,基礎任務用很多現成模型,但在最難的候選人最終評估環節,我們會做後訓練。我們會從客戶的數據中學習,比如哪些人表現好,原因是什麼,從這些信號中學習,做出更好的未來招聘預測。

Patrick:你們學到過哪些讓人意外的信號?比如AI發現了什麼是你們人類沒想到的?

Brendan:有很多這樣的例子。我認爲AI的一個關鍵優勢是能更深入地分析候選人的所有細節,發現人類有時會忽略的小信號,而人類因爲“氛圍判斷”可能早就決定了。比如簡歷裏如果有人表現出對某個領域極大的興趣,純粹是出於興趣而不是工作需要,這會成爲一個信號。或者有人曾在目標國家留學,可能溝通更順暢,更適合團隊環境。這些小細節因項目和客戶而異。

Patrick:你覺得有哪些事情是一定需要人做的?你剛纔提到多模態任務,但你怎麼看AI和人類面試官的協作?未來會不會全是AI評估?

Brendan:簡單來說,招聘過程分爲評估和推銷。評估環節很快就會變得非常強大,大家會發現AI的推薦明顯更準,大家會更願意相信AI的結果。人類則會繼續在推銷環節發揮很大作用,比如讓候選人瞭解團隊、崗位、氛圍等。AI讓招聘經理和HR只需專注於真正想要的人選,而不用浪費時間面試不合適的人選。這樣能讓他們更好地幫助候選人瞭解崗位、團隊和激勵點。

Patrick:你覺得大家會不會開始“刷分”——有意迎合評測信號?你們遇到過嗎?比如大家都說自己去目標國家留學過。

Jacob:大家都說自己去目標國家留學過。

Patrick:對,比如都說自己在招聘地留學過。

Brendan:是的,所以有時候我們要對信號保密。我們和所有大型招聘流程一樣,經常遇到這種情況。關鍵是確保評測足夠動態,比如經常更換問題,或者針對候選人背景問很深入的問題。因爲模型能爲面試做大量準備,人才評估的深度和廣度前所未有。

比如我第一次面試高管候選人,可能只看幾分鐘LinkedIn和一些筆記,但如果我能聽他們上過的播客,讀他們寫的博客或論文,再針對這些提問,深度和細節就完全不同。

Jacob:你們的模型很擅長預測候選人表現,這個過程需要可解釋性嗎?還是說模型黑箱給出結論就可以?

Brendan:我認爲可解釋性很重要,有兩個原因。第一是讓客戶理解和信任模型的結論,建立信任和推理鏈。第二是確保模型選人是基於正確的理由。所以可解釋性很有價值。

但我認爲最終的經濟形態可能就是API式的,人們需要完成工作,或者需要一定的人類參與,然後只要一個置信區間預測這個人能否勝任,整個流程里人類的中介作用會大大減少。

Jacob:這算是通往那個目標的信任里程碑,很有道理。目前數據標註環節有明確的反饋迴路,比如多個人標註同一份數據。你怎麼看把這種方法應用到更模糊的人類工作領域的挑戰?也許你得等15年才能獲得反饋。

Patrick:比如VC(笑)。

Brendan:我的一個看法是,如果有100個人做同樣的工作,很容易給他們排名。但如果100個人做的工作都不一樣,比如創始人,每個人的工作都很有差異,就很難找到共性,難以判斷哪些行爲或信息和結果有關。因爲變量太多了。所以對於大規模同質崗位,比如招20個客戶經理,模型可以從中學習信號並優化。但對於複雜崗位,比如我們在評估一批Thiel Fellows(蒂爾獎學金項目),這種情況就更具挑戰性,更依賴模型的推理能力。

Jacob:有哪些具體挑戰?

Brendan:主要挑戰是很多信息沒進到模型上下文裏,模型無法學習,人們也經常忘記補充信息。比如我聽朋友說某公司產品很好,這種信息沒被輸入模型。確保所有推薦信、人與人之間的細節都被輸入,是主要難題。我們發現,其實只要把必要數據輸入模型上下文,就解決了大部分問題。

Jacob:也許未來我們每個人的智能眼鏡都在錄音,隨時把信息輸入模型。

Brendan:對。

Jacob:會不會變成橋水基金那樣的程度?

Brendan:也許是。但很多公司會排斥這種做法,出於法律和合規原因也不願意。但我認爲會有更好的流程,讓模型能更好地獲取上下文。比如AI做離職面談,採訪經理和團隊成員,瞭解更多細節。人們腦子裏有很多細節信息,我們只需要把這些信息輸入模型,就能做出超越人類的預測。

Patrick:現在越來越多創始人和各種人都會帶AI參加會議,所以很多會議和交流都會被錄音,供AI學習。非常有趣。

Jacob:我們可以把自己的會議轉錄拿來給AI給我們打分排名。

Patrick:哈哈!

Jacob:前提是我能排在前面。

Patrick:你怎麼看現在的數據標註市場?不同玩家如何區分?ScaleAI似乎遙遙領先,但現在又有很多新玩家,你怎麼看這個格局?

Brendan:我認爲大多數人不瞭解數據標註和評估市場的關鍵變化。市場和兩年前完全不同。以前模型不夠好,很容易被難倒,經常出錯。高中生或大學生就能做很多標註或評測,通過衆包方式做大規模數據收集,比如SFT(監督微調)、RHF(人類反饋強化學習),選擇不同的偏好選項。

但隨着模型變得很強,衆包模式失效了,因爲你需要高質量人才直接和研究員配合,幫助他們理解模型表現好或不好的原因,設計複雜數據來難倒模型,反映現實世界要自動化的難題。我們的平臺正好能快速招到這些高質量人才。

這讓我們迅速發展,與大實驗室合作。我認爲這個趨勢會繼續。那些還停留在大規模衆包的公司會遇到很多麻煩,新的玩家會聚焦高質量人才,繼續搶佔市場份額。

Patrick:你覺得數據標註流程裏對人類的需求會一直存在嗎?模型越來越強,甚至能訓練小模型,你怎麼看未來的演變?

Brendan:我的看法是,只要經濟中還有人類能做、模型還不會做的事情,我們就需要創造或模擬環境讓模型去學習。所以有些領域會很快被攻克,比如數學或代碼,數據量小且易驗證,模型很快能解決。但有些領域很開放,比如評估好創始人,或者很多知識型工作,本質上是開放性難題,難以驗證什麼是好,需要把人類的理解輸入模型。這就是爲什麼我預計人類數據(注:human data,通常指直接從人類或關於人類收集的數據)和評估市場會有數量級增長。

Jacob:如果我理解沒錯,你們最初的“套利點”和公司靈感就是全球各地有優秀的程序員,但他們無法獲得某些工作的機會,這對編程數據來說非常重要。你們顯然已經擴展到其他領域,比如編程本身是個完美的強化學習和評估用例,你們在進入這些更模糊的領域、招聘相關人才時,有哪些需要改變或改進的地方?

Brendan:我認爲,借鑑人類手動做事的啓發式方法是很好的做法。例如,如果你想自動化顧問的工作,怎麼評估顧問?那就給他們案例研究,也許是和他們背景相關的案例。

Jacob:你們團隊的人可能都很擅長評估程序員,但如果要讓醫生加入平臺,你們怎麼知道該用什麼啓發式來評估醫生?

Brendan:你提到的這個點很有意思,就是當進入超出機器學習團隊能力範圍的領域時,就需要專家。我們需要醫生來幫助我們設計醫生的評估和評測標準,其他領域也一樣。同樣,這也是研究員需要做的事情。比如做看高中物理題還容易判斷哪個答案對,但如果是博士級化學題,研究員沒有相關學歷就很難理解和改進評測。所以這也是你之前問的評估大變化之一——無論是評估人才還是研究員評估模型,都將變成更協作的過程,需要和專家一起合作,幫助模型進步。

Jacob:我聽你說過,這種短期數據標註合同工作其實是你們最初市場的完美切入點,需求巨大,是通往端到端勞動力市場的楔子。你能聊聊公司實現這個願景的路徑和階段性目標嗎?

Brendan:我寫過一份“祕密大師計劃”有講到這個。我的看法是,市場網絡效應很強,這讓它既有護城河也很難建立。所以現在我們非常專注於抓住巨大的需求,擴大網絡效應,發展市場。

與此同時,我們也看到很多大科技公司客戶需要大量合同工,比如上百個數據科學家、軟件工程師等,雖然這些崗位和人類數據沒直接關係,但本質上需求類似,只是更傳統的市場,以前是和埃森哲、德勤等公司競爭。我們會把這作爲第二重點,然後擴展到全職招聘。但其實我們公司早期做的就是幫朋友和自己招合同工,很多後來轉正了。

所以這些業務是連續的,有很多共性。所有公司都想要更多候選人、更快招聘速度、更高的勝任信心。我們只要不斷衡量並提升這些指標,就能服務好公司發展的每個階段。

Jacob:有沒有哪一刻讓你們決定要轉向人類數據領域,覺得機會特別明顯?

Brendan:有,我還在大學時就遇到了。公司背景是我和合夥人14歲時在高中認識,大家18歲一起創業,他們贏了很多比賽,我沒他們厲害,但一直在創業。後來我們開始在印度招聘國際人才,比如和IIT Code Club合作,發現有很多聰明人找不到工作,我們覺得可以僱他們做項目,朋友們也願意付錢讓我們幫忙招聘。我們就這樣賺取小額服務費,把公司做到一百萬美元營收,扣除工資後還賺了8萬美金。

我很自豪,但父母還是不滿意。直到我們融資了,他們才滿意。回到你的問題,2023年8月,有客戶把我們介紹給x.ai的聯合創始人,那時他們還在特斯拉辦公室。他說Mercor有印度的超級工程師,擅長數學和編程。第二天x.ai的創始人就和我們通話,非常興奮。兩天後我們就進了特斯拉辦公室,見了x.ai幾乎全部創始團隊,除了Elon,就在他們和Elon開會前。我們還在上大學,簡直不可思議。我們都在想,他們爲什麼這麼想要我們的產品?因爲市場變化太快,沒人意識到。現在我們做大了,佔了關鍵市場份額,纔開始公開講這些。但他們那時還沒準備好用人類數據,大概六個月後我們才和前沿實驗室合作,把業務做大。

Jacob:看到了浪潮來襲。

Brendan:是的,我發現很多創始人在找PMF時太過強求,其實應該觀察市場信號,哪裏有金礦就去挖。如果最初銷售都很難做成,後面規模化會更難。要找到最痛點、最有錢的客戶,他們願意爲解決問題付出一切,然後全力以赴。

Jacob:你們現在已經超越了編程,比如醫生這個例子讓我想到,其實評估好醫生的標準最終會被模型公司用來訓練模型,判斷醫生的推理過程對不對。你們在和客戶合作時具體做什麼?

Brendan:人類現在比AI強的一個關鍵點是能不斷學習和進步。我們會尋找這些代理信號,比如候選人會問正確的問題,思考方式對,背景裏有高績效環境的經歷,這些都能幫助他們發現模型的漏洞、提升模型能力。

Jacob:你們現在自己也用自家產品嗎?具體怎麼用在招聘上?

Brendan:當然,除了高管崗位,其他崗位我們都用。高管崗位我們也掛了職位,但大多還是我先面試,主要是爲了推銷崗位而不是篩選。我們的AI面試非常有效,很多時候是最有預測力的信號。很多人低估了招聘過程中的“氛圍判斷”偏見,人總覺得自己判斷準。

Jacob:招聘其實是最早的“氛圍”行業。

Patrick:VC們肯定沒有這種偏見。

Brendan:所以我們要用業績數據來做決策。比如我們招聘戰略項目負責人,以前是人類做案例分析,現在全部用AI面試,最終轉正率還提高了。AI面試能讓比較更客觀、標準化,不用不同面試官各自爲政。

Patrick:評測環節你們是自己找人做,還是用市場上的人?內部做得多嗎?

Brendan:我們會用市場上的人來做自己的評測流程,和客戶流程類似。當然研究員還是要參與,分析模型出錯原因、完善錯誤分類、優化後訓練數據,流程和用人都一樣。

Jacob:你們提到用多模態能力判斷激情等特質,對未來的視頻、音頻等有何考慮?

Brendan:我常想強化學習(RL)在提升視頻理解能力上的作用。RL擅長搜索問題,而視頻信息量巨大,所以模型處理起來困難。我們要思考如何在多模態上下文裏找到關鍵信號,比如候選人是否很激動、是否作弊等。我們要創造合適的數據,讓模型關注這些信號,前沿實驗室也在做底層能力提升。

Jacob:就像你說的,短短几年,標註市場變化巨大。你覺得兩年後會怎樣?這塊業務還會存在嗎?還是隻剩下專家?

Brendan:我認爲會是很重要的一塊。我們創業的初衷就是聚合勞動力,讓勞動力配置更高效。關鍵在於判斷五年後人類在經濟中的角色。

我看到的趨勢是,未來人類會專注於創造評測,讓模型能學會還不會做的事,而不是反覆做同一個任務。所以我高度看好知識型工作向評測轉型,可能形式會更動態,比如和AI面試官對話解決問題。我認爲這是經濟的重要組成部分,但大多數人還沒意識到,因爲大家把它和SFT、RHF市場混淆了,而這兩類數據的價值正在下降,預算也在減少。

Patrick:你覺得未來哪些技能最值得培養?如果你建議在校生應該學什麼,你會怎麼說?

Brendan:我一定會建議大家追求快速學習能力,因爲變化太快了。很多領域,人們以爲模型很久都做不好,結果很快就突破了。要多和AI協作。我們市場上的人常說,他們喜歡能整天和模型打交道,思考模型做不到什麼、缺了什麼。這些經驗能幫他們在實際工作中判斷哪些環節用AI更高效。所以要儘量多用模型,熟悉它們在本領域的優缺點。這很有幫助,但很難說一定要做軟件工程師還是別的什麼。

Jacob:很有意思,未來我們可能都要花大量時間訓練模型。硬技能有對錯,但主觀領域幾乎無限。也許以後我們還能給自己專屬模型打工掙錢。

Brendan:完全同意。我還建議大家關注需求彈性大的領域。比如軟件開發,經濟裏有100倍、1000倍的需求,哪怕不是1000倍新Web應用,也有大量功能迭代、排序算法優化等。相比之下,會計師等需求就很固定。所以要儘量去需求會大幅增長、能提升總生產力的領域,這樣更保險。

Patrick:你說得很對。我前幾天和一個創始人聊天,他說,大家都在說軟件工程師會被淘汰,但其實我真的很需要更多的軟件工程師。

Brendan:我也很興奮。如果我們的軟件工程師生產力提高十倍,我們可能會僱更多的軟件工程師。所以需求和價格的關係總是很有意思。

Jacob:你們創業之初,應該也有誘惑去做招聘協作工具或者爲中介機構做軟件吧?你們爲什麼決定做端到端的服務?這個決定是一開始就確定的嗎?

Brendan:一開始我們有很多第一性原理的思考,反而有優勢,因爲我們沒見過傳統做法。我們知道朋友們想解決的問題就是想找到靠譜的軟件工程師,所以我們就把所有環節都包辦了。但現在回頭看,我覺得越來越多公司會走向端到端,因爲沒必要爲一個未來可能消失的崗位開發協作工具,更合理的是把整套流程自動化,讓它能從反饋中學習和優化。

Jacob:確實,尤其你們做的數據勞動力市場,正好適合在AI能力還不成熟時做端到端。如果沒有這個市場,你們可能也會先做協作工具。

Brendan:對,比如全職招聘,客戶肯定希望員工在自己名下。所以我們很幸運,公司的運營模式和市場需求轉變高度契合。

Jacob:一開始你們是幫朋友找合同工,最初你是不是覺得這是個副業,後來才變成主業?什麼時候讓你下定決心全職創業?

Brendan:其實我高中就一直創業,公司做得還不錯,所以我本來不想上大學,和父母說了他們也不高興,後來爲了安撫他們還是申請了大學,但我一直說自己會退學,他們也不信,覺得既然我答應上學就不會退學。但我每學期都和他們說同樣的話,最後真的退學了,也沒提前打招呼,因爲我已經說了兩年了。

Patrick:我早就知道你會退學。

Brendan:對我來說,我很清楚自己想創業,想做有影響力的事情,而不是上那些感覺沒用的課。我其實一直在尋找值得投入的事情。我的合夥人最初也是當副業做,想拿到足夠證據說服父母退學。他們父母的要求是必須融資成功,哪怕公司已經有百萬美金營收和利潤也不行,必須拿到種子輪投資。所以家長才是VC們的“金主”——只有融資成功纔算有“可信度”。

Jacob:沒錯,沒有家長就沒有VC。

Brendan:這就是“權威背書”。

Patrick:說到融資,你們之前(注:今年2月)剛完成一億美元的B輪融資,恭喜!這筆錢會怎麼用?你們是怎麼判斷何時該融資的?

Brendan:其實我們唯一主動去融資的就是種子輪,爲了說服父母退學。A輪和B輪都是被投資人“搶投”的。我們的想法是保持稀釋率在5%左右,建立“彈藥庫”,用來投入產品研發,比如推薦激勵、創新的消費級產品,擴大市場供給端,也會投入更多後訓練數據,提升模型表現預測能力。我們ML團隊最大的瓶頸其實就是做更多評測和訓練環境,這也正好和我們的主營業務吻合。

Jacob:你們的客戶羣有很多基礎模型公司,你怎麼看這個領域的未來?有人說會只剩兩三家巨頭,你覺得最後會有多少玩家?他們會怎麼差異化?

Brendan:這是個好問題。我堅信OpenAI現在和未來都會是產品公司,而不是API公司。很多API能力會大宗商品化,關鍵是怎麼和客戶場景深度集成,這纔是定價權的來源。但市場足夠大,每家都能在細分領域吸收大量價值。哪怕有實驗室專注做對衝基金,也能賺鉅額利潤。大家喜歡用經驗主義說這些公司估值虛高,但如果你從“自動化知識型工作”這個第一性原理出發,這些頂級團隊一定能做出偉大的公司。

Jacob:現在模型跨領域泛化很強,所以感覺贏家通喫,還是會有細分領域的佼佼者?你舉的對衝基金例子很有意思,說明應用層還有很多空間。

Brendan:對,聚焦很有價值。我覺得做通用API不是好生意,最終只會剩下一家。更多價值會在應用層,每個垂直領域和客戶場景都需要深度定製。

Jacob:你覺得這些定製模型會需要很多複雜的標註嗎?

Brendan:肯定會。比如每個交易公司都能針對自己獨特的交易分析做評測,判斷哪些結論準確,哪些不準,能否轉化爲盈利。如果有一流的後訓練團隊專門優化交易分析,比人類交易員更快,那機會大得驚人。

Jacob:感覺有些交易公司最優策略應該是暫停交易,花九個月專注後訓練模型。

Brendan:我其實很驚訝,很多交易公司在後訓練上的投入比想象中少,可能是地理原因——他們主要在紐約,實驗室和研究員都在舊金山,而且頂級研究員更想做AI,不願意只爲賺錢。但我相信他們會大舉投資,和前沿實驗室形成九位數、十位數的合作,定製自己的應用。

Jacob:你現在在AI領域最大的未知是什麼?如果能知道答案,對公司運營會有什麼影響?

Brendan:還是你剛纔說的,人類五年、十年後會做什麼。這是個極難的問題,也是公司使命的一部分。我們有各種直覺,但世界變化太快。很多工作會被自動化,我們需要更好地理解未來人類的新機會和經濟角色,這很重要。

Jacob:你覺得政策層面還有哪些事可以做?其他機構應該扮演什麼角色?

Brendan:當然。很多監管者關注的事情其實離老百姓很遠。我覺得未來兩三年大家會真正擔心的是,AI模型在很多工作上比人厲害多了,我們要想辦法讓人類融入經濟,這一定會發生。這不是那種小概率、大影響的風險,是必然趨勢。所以監管者應該更主動地規劃未來,管理公衆預期,告訴大家幾年後世界會變成什麼樣。

Jacob:確實,現在連再培訓什麼都還說不清。

Brendan:沒錯。但我希望這方面能有更多討論,更多關注下一代工作的形態,也給學生和求職者更多指引。

Jacob:我們喜歡在採訪最後做一輪快問快答,問些寬泛的問題,想聽聽你的簡短看法。你覺得AI領域有什麼被高估、又有什麼被低估了?

Brendan:好問題。我覺得評測(E-vals)被嚴重低估了。雖然現在已經很火,但我認爲還是被低估了很多。

Jacob:人類能力的最後堡壘。

Brendan:我覺得被高估的是SFT、RHF這類傳統數據。有公司在這上面花了幾十億美元,其實根本沒必要,花費應該減少一個數量級,這個趨勢會變。

Patrick:過去一年你在AI領域有什麼觀點發生了變化?

Brendan:有意思。我對自動化軟件工程的時間線預期大幅提前了。以前我對研究員說的“AI能寫出比人類更高命中率的PR”的時間表還持懷疑態度,現在我覺得今年晚些時候、明年上半年就會實現,這會非常酷。

Jacob:是啊。其實兩年前,如果說AI能有現在的能力,大家都會覺得要改變世界了,但真的實現後,反而沒那麼震撼。你覺得這會不會導致軟件工程就業出現大規模變化,還是隻是10%~20%的變化?

Brendan:關鍵還是我們之前說的“需求彈性”。短期內我不擔心工程師失業,因爲工具讓他們更高效,反而會有更多軟件要寫。但崗位性質肯定會變,懂產品、懂模型短板的人會更有比較優勢。

Patrick:除了你們公司,你最看好哪家AI創業公司?

Brendan:我很看好OpenAI的代碼能力,雖然這個答案不夠“逆風”。我也覺得未來會有大量定製智能體,有一家在法國的公司還在隱身狀態,我很感興趣。

Jacob:那你肯定不能在播客裏說,等錄完我們再逼你透露(笑)。