作者:

作爲一家上市公司的老闆,出門問問創始人、CEO 李志飛在最近的新品發佈會上並未親自講解產品,而是分享了一場個人的「行爲藝術」——一場「一人公司」的實驗。

他給自己設定了一個看似不切實際的目標:在幾天內,用 AI 工具開發出一個專爲 AI 組織設計的「飛書」。

作爲上一波 AI 浪潮的實踐者,每一次他都走在最前面。2012 年,他離開 Google 科學家的職位回國創立出門問問,立志「用 AI+語音重新定義人機交互」,從語音助手、智能硬件到 AIGC。當這一波 AGI 浪潮興起時,他最初也是很興奮地積極投入,但很快意識到這似乎是一場巨頭間的遊戲,中小公司難以創造太大價值,一度感到迷茫甚至沮喪。

然而,他通過使用 AI 編程工具,讓自己變身爲「一人公司」去實踐和體驗,實踐過程中,他遇到了許多實際問題,但正是這些細節和經歷,又讓他重新找回了 AGI 的信仰。

他突然發現,過往世界中的種種「摩擦力」,所有構建複雜事物的障礙,彷彿都消失了。

那種與 AI 一同狂奔向前,油然而生的自由感和看到希望的激動,在現場演講時溢於言表。

以下爲李志飛的發佈會演講內容,爲便於閱讀,經極客公園編輯整理:

我最近投入大量時間在 AI 領域,並親身實踐了許多具體項目。因此,我對大模型和 AGI 有了新的認知和感悟。今天,我想和大家分享一下這段時間以來,我一直在思考的問題以及我的一些感受。

首先,我們究竟應該如何做 AI?

我這裏有一個口訣:「用 AI 的 AI 做 AI」。

這聽起來有些拗口,簡單來說,第一個「AI」指大模型;第二個「AI」是指 Coding Agent,它本身可能也是由 AI 製作的,或者其主要能力源於 AI;最後一個「AI」則是我們自己要做的應用。

我認爲這可能會成爲一種新的軟件開發範式,稍後我會爲大家詳細展開。

新的軟件開發範式|圖片來源:出門問問

一個人,2 天,打造 AI 時代的「飛書」

我前段時間萌生了一個大膽設想:爲 AI 原生組織打造一款全新的「飛書」式協作平臺。

美國硅谷有許多獨角獸企業,僅一兩個人團隊就能估值數億美元,也有許多新聞提及 AI 將替代大量工作。

於是我開始思考,作爲一家企業組織,像我們在國內高頻使用的飛書、釘釘、企業微信等工具,若無它們,我幾乎無法開展工作。

在以「人」爲中心的傳統企業中,我們高度依賴飛書、釘釘、企業微信這類工具,它們承載着信息的快速流動與高效協作。

在傳統的企業中,主要的生產力或工種幾乎百分之百是人。所以,以往的信息流動和協作都圍繞着人進行。

但當一個組織中,10 個工種裏有 8 個由 AI 承擔,僅剩 2 個人類角色時,現有的協作工具將無法適應。

那麼,對於新型組織而言,他們會使用什麼工具呢?

因此,我希望能開發一款產品,它能讓 AI Agent 之間、以及 AI 與人類之間無縫進行羣聊、私聊、知識庫問答和任務協作,也期待通過這個項目,驗證自己能否成爲一個真正的「超級個體」或「個人獨角獸」。

接下來是如何執行。

通常,像飛書、釘釘這類軟件的開發是極其複雜的。過去,要做這樣的產品,通常需要產品經理、設計師、前端、後端、測試以及算法工程師等多個工種。每個工種可能還有負責人,比如前端負責人、算法負責人、產品負責人。通常,拉一個羣很快就會有 20 個人。這 20 人並非所有都是全職做這件事,但他們可能需要花費一個月的時間才能做出一個原型。

在 AI 時代,這實在是太慢了。

等我做出來的時候,或許相關的創業團隊已經成爲 AI 獨角獸了。

因此,我決定拋棄舊有模式,親自上陣,並嘗試完全依賴 AI 來完成這項工作。恰逢端午節前夕,我決定沉浸式投入這項工作。當時有三天假期,我想能否利用這三天把這件事做出來。因爲只有這樣纔不會有人打擾。

於是,我便開始了這項工作。

我一個人,連續兩天,每天工作到大概凌晨一點多,最終在 6 月 1 日晚上 11 點半,完成了這款產品的原型。它具備登錄、私聊、羣聊、文件上傳、消息轉發和回覆等核心功能。

登錄後,可以選擇私聊併發送消息。比如,我們可以問產品經理這個角色會不會脫口秀,如果他不會,我們可以動態調整角色,增加一個技能,AI 會自動重新生成一個 Prompt。

稍後我們再問他,他現在就會了。它還可以上傳文件(雖然當時文件內容沒有真正讀取),也可以轉發和回覆具體消息。請記住,它背後是一個 AI,並非真實的人。它可以根據你發送的消息進行回答和轉發。

轉發時,大家可以看到顯示效果非常複雜,與微信類似,因爲轉發中嵌套了其他信息。這是一個羣聊,也可以 @ 具體的人。同樣,可以轉發、回覆、添加附件,甚至可以切換成中文。

請大家鼓掌吧,兩天時間!

兩天時間,我完成了一個帶數據庫、有前端、有後端、有 AI 算法的系統。剛纔的 AI 能夠自動回答,當你修改角色配置頁面後,它的 Prompt 會自動重新生成,技能也會立刻顯示出來。

說實話,剛開始我做了半天就差點放棄了,因爲數據庫問題搞不定,總是出現各種 Key 錯誤,AI 編程目前確實存在這類問題。但我最終還是在兩天內把它做出來了。

隨後,我思考如何推廣這款產品。

以前,我們公司會有專門的工程師來做這個網站,市場部會有一羣人定義產品亮點,可能五六個人忙活一個星期才能做出一個網站。

但我這次決定採用 AI 原生方式。既然 AI 知道所有代碼,它也瞭解我的所有想法和產品功能,於是我讓 AI 做了一個網站。

用 AI 打造的該產品的官網頁面|來源:出門問問

於是,我讓 AI 在短短 5 分鐘內搭建了一個帶有產品亮點和獨特功能的網站,又在 5 分鐘內爲營銷活動創建了可配置的廣告位。這在過去可能需要多名市場和工程師團隊一週的工作量。

以前我們公司的網站,做了一個營銷位後,如果聖誕節過了要撤下,或者要更換新的內容,以前又要找工程師折騰半天。我就想,我能不能做一個網站,營銷位是可以配置的?

又花了 5 分鐘,AI 做了一個可以配置營銷位的網站。這意味着營銷人員可以登錄這個網站,上傳圖片或其他內容,然後直接修改主網站的相應部分。

做完這些後,我想,因爲這是一個全新的產品,它有一些新概念,或者說有一定的複雜度。我能不能製作視頻來解釋這個網站的功能,無論是營銷視頻、操作指南還是產品導覽。

但是端午節,我的員工是不會理我的。所以我只能自己動手。於是,我又寫了另一個程序,它能自動生成整個腳本,包括如何介紹網站、如何操作網站 UI 的工作流程,並進行自動錄屏和配音。

雖然聲音對齊方面還有些小瑕疵,但整個視頻百分之百由 AI 完成。我只需下達指令,它就能自動操作,最終將完成的視頻呈現在我眼前。

這讓我很有成就感,僅僅幾天時間就做出了這個東西。

然後我想看看其他人會如何看待這件事。於是我把代碼上傳到 GitHub,讓我的同事下載下來。但請記住,我們是兩個不同的個體,GitHub 並不知道我是如何與 AI 交流並完成這些的。

所以我的同事最終只看到了代碼,並在本地運行了它。

當我的同事下載我在 GitHub 上傳的代碼並運行後,他們對其複雜性和完成速度感到震驚。他們認爲這需要數十人幾個月才能完成,而當我告訴他們,這是在 AI 輔助下,由一個工程師在兩天內完成時,他們的反應是:「This is absolutely insane.」(這簡直是瘋了。)

他們驚訝於其中包含的 4 萬多行代碼,這遠超我以前在 Google 一天 300 行算法代碼的產出。

以前我在 Google,一天寫 300 行算法代碼(非簡單代碼),這已經算是高產了。而我最近寫了一個通用的 Agent,它在 3 個小時,也就是一個晚上,給我寫了 3000 行 Python 代碼。也就是說,那 3 小時,而且代碼質量絕對比我寫的好,裏面是沒有任何 UI 的純粹後端邏輯。

換句話說,它 3 小時代碼的能力,相當於我以前 10 個工作日的工作量。就是這樣一個比例。

所以我就在想,一個人就可以完成一個 Google Translate。以前 Google Translate 是由 20 個全世界最頂尖的博士在那裏寫代碼,寫了很久。而我現在,我一個人就可以完成那 20 人的工作量。當年 Google Translate 至少還是一個非常了不起且複雜的系統。所以,我覺得從這個角度來說,所有事情都與以前大不相同了。

我認爲,最終 AI 的關鍵在於你能夠構建一個自我進化的 AI 系統。

李志飛的實踐心得|圖片來源:出門問問

爲了方便測試這個 AI 組織的 App,我又自動編寫了代碼:左邊是網站代碼,右邊是一個測試框架。然後,它自己就像左腳踩右腳一樣往上飛。你們可能覺得這是永動機,確實有這種可能性。當然,它有時也會左腳踢右腳往下跌,也就是會負向循環,也會正向循環。

爲了實現這個目標,除了工程師,所有非工程師也能夠直接修改我的代碼。我又做了各種各樣的 Agent。

當然,很多這些都是 Prompt,我只是驗證了可行性,並沒有達到真正的可部署或產品化。

但我認爲,這證明了這個想法,或者說向團隊演示這就是我想要的東西,以前可能需要花費大量時間才能弄清楚。現在你直接做一個 Demo 給他們看就好了。所以我認爲,即便是一個 CEO,如果你有這種能力,你的產出真的是放大了 100 倍。

踩過的坑

前面是我的經歷,接下來我給大家講一下抽象的理論,希望你們不要睡着,因爲這還是非常獨一無二的。

我想分享的是在使用 AI 編程時遇到的幾個問題。

第一個問題是每個 Agent,即便我沒有寫 Agent,它仍然需要人工參與。

也就是說,我還是得說「我要寫一個這樣的 Agent」,雖然你可以參考我旁邊的通用 Agent 框架,然後修改一下,再告訴我。但我仍然需要做這件事。有時它總是忘記我的原則,我又要跟它說:「你又忘記我的原則了」,或者「智能到底應該放在哪裏?」它仍然存在這些問題。

第二,如果你用過它,它總是喜歡偷工減料。

比如你讓它做某件事,明明還需要涉及到後端數據庫,但它沒做。它完成後就給你寫一份很長的報告邀功,說它做完了。我通常看都不看,直接說:「你已經寫了數據庫了。」它會立刻道歉,然後開始行動。比如我要求它做 AI 時,它經常連遠程的 AI 都沒有調用,自己寫一些 Fallback 或者假的東西。

因爲我一看它運行得這麼快,就知道一定有問題。我說:「你真的調用了遠程的 AI 嗎?」它又開始道歉,然後去處理。每次都這樣,它還是很喜歡偷工減料,重複的錯誤更是不勝枚舉,我就不贅述了。

另外,我覺得今天的 AGI 事實上做不了超長任務。而我現在的任務很多時候都超過半小時。

我每天消耗的 Token 就是 50 美元。只要我那天想工作,從早到晚它都在消耗 Token。我真的覺得,我完全可以跟它說:「我有一些 Idea,這是我的 Idea 方向,請你幫我完成一個 10 天的任務,幫我賺 500 萬美元。」

我認爲這並非神話,只是我好像對此沒有那麼大的吸引力,就沒有去做,或者說,因爲這可能要消耗自己很多情緒和精力,賺不到錢的時候會很痛苦。

但我就想,它能否連續工作 10 天,你不用幹預它,或者偶爾提醒一下方向,它能否工作一個月,甚至一年?

我覺得在不久的將來,達到諾貝爾獎或菲爾茲獎級別的成果是完全沒有問題的。

因爲我與它交流時,有時會討論我們以前學過的超級複雜的算法,全世界可能都沒幾個人研究,它都比很多人聊得好多了。所以,如果你給它足夠的上下文和代碼,它其實可以進行非常深入的溝通。

迴歸本質:什麼是通用Agent 和智能

接下來,我想跟大家分享一下我對智能和 Agent 的思考。

簡單來說,一個 AI Agent 包含兩個核心部分:規劃器(Planner)和執行器(Executor)。

AI Agent 的結構|圖片來源:出門問問,下同

規劃器通常依託大型語言模型,承載了 Agent 的主要職能。它根據任務制定詳細的計劃。執行器則負責將這些計劃付諸實踐,無論是編寫代碼,還是自動化瀏覽器操作以製作視頻。

Agent 的運作是一個持續的反饋循環:

  1. 規劃: Agent 根據任務制定具體行動方案。

  2. 執行: 執行器按計劃操作。

  3. 獲取反饋: 執行過程中,Agent 從環境中獲得即時反饋。例如,當 Agent 嘗試運行「python」命令而本地實際是「python 3」時,系統會報錯,Agent 便能識別並修正爲正確的命令。

  4. 調整與迭代: Agent 根據反饋重新規劃,更新對當前情境的理解(上下文),然後再次執行。

  5. 目標達成: 當預設的成功標準(如程序編譯通過或測試全部完成)達到時,循環結束。

如果我們思考智能的本質,我認爲,智能的第一個本質是進化。

就像人類作爲智能體,在特定環境中(無論是社交還是任務執行),通過獲取反饋來不斷調整自身行爲並進行反思一樣,AI 也應如此。這種進化是自動的,無需人工干預。Agent 自主建立循環,通過規劃、在環境中執行、獲得反饋、調整規劃並更新上下文,實現持續的自我完善。

在此進化過程中,關鍵在於:從自身經驗中學習,以及 Learn from others,就是所謂的羣體智慧,從別人那裏學習經驗。

智能的第二個本質,我認爲是遞歸。

遞歸是一種「分而治之」的思想:一個複雜問題被拆解成更小的、相同類型的問題,直到它們可以被直接解決(即「基本情況」)。

例如,計算斐波那契數列的第 99 個數,就是依賴於第 98 個和第 97 個數,直至追溯到初始的 F0 和 F1。

若 Agent 要實現真正的智能,它也應具備遞歸架構。例如,一個接收「賺 500 萬」這樣宏大任務的 Agent,會逐步將其分解爲具體的子任務:分析商業機會、搭建網站、製作視頻、集成支付、社交媒體推廣等。每個子任務最終都能追溯到可執行的「原子 Agent」。

這種遞歸架構的關鍵在於實現自我繁衍。就像人類文明的傳承依賴於一代代人的探索與知識積累,Agent 亦應如此。更重要的是,Agent 必須具備修改自身源代碼的能力。

這與當前 Agent 僅僅調整計劃不同,它意味着 Agent 能夠像修改自身基因一樣,根本性地改變自身運行邏輯。

我相信,如果一個 Agent 能夠:

  1. 持續執行並優化其計劃。

  2. 在遇到無法解決的問題時,自主修改其核心源代碼。

  3. 最終通過這種機制形成知識庫,甚至能夠反向修改大型模型本身。

那麼,這將是通向通用人工智能(AGI)至關重要的一步。

這並非科幻。以前我特別不喜歡討論什麼超級智能之類的東西,而是我在與大模型的深入探討後,我突然覺得這完全是有可能實現的。

另外,真正的 AI 源代碼可能極其簡潔,核心代碼也許不超過百行,但其中蘊含着多層遞歸,使其能在不同環境中探索、學習反饋並自我迭代。

我曾有過信仰崩塌。2023 年我有了 AI 信仰,但做了一段時間,主要是因爲沒有資金支持,覺得燒不起,所以就放棄了。去年,別人跟我講 AI,我都不想聽。

但最近我重新找到了對 AI 的信仰,甚至信仰了 AGI,信仰了超級智能。這是一個難以想象的轉變。我希望我對這份信仰能夠這次持續更久一點。

個性化環境與上下文的重要性

那麼,除了大模型之外,最重要的是什麼?最重要的是你要有個性化的環境和 Context(上下文)。

以我的創業爲例,我之前做了一個智能硬件,結果小米把價格拉到我們十分之一。我做大模型,結果所有大廠都進來了。你每次獲得這種反饋之後,就讓你放棄這種東西,或者你就不停地調整你的 Plan。

如果在美國,我做了一個大模型,我可能就被 Google 收購了,賺了很多錢。或者我做了一個硬件,我可能被蘋果收購了,賺了很多錢。所以這種反饋一定會造就你這個人的行爲是完全不一樣的。同樣一個創業者,同樣的智商,在中國和美國不一樣的創業環境下,得到的反饋不一樣。最後你的行爲,你的思考模式就會完全不一樣。這就是我想說的,什麼是個性化的環境,個性化的上下文。

上下文更多是一個歷史的記錄。

所以回到我之前講的,在大模型時代,我是第一批站出來說要做大模型的,但可能也是第一批意識到這不是我的菜。然後,基本上沒有全身心投入去做這件事,就是因爲我不知道如何參與。

今年上半年時,我更覺得除了全世界那三四個巨頭,其他公司都沒有資格談論模型,不要湊熱鬧,不要浪費你的生命。更不要浪費你的情緒在這裏面。因爲你根本就沒有機會,那完全是在燒錢,而且事實上大模型本身這個東西,我覺得已經變得超級無趣,反正就是燒錢。我找不到切入點,我更不能理解絕大部分 AI 公司到底還有什麼價值。

但是這一次,通過實踐和重新審視,我覺得哪怕是高大上的 AGI,至少我自己覺得我好像又可以參與了。

所以,這就是 Agent 的 Planner 和 Executor 這個循環迭代的事情。如果你投入足夠清晰,你能讓智能產生智能,我認爲你是可以參與整個 AGI 的過程的。

而大模型本身對你來說就是一個芯片一樣。大家想象高通的芯片、蘋果的手機,到上面的 TikTok。這是完全不一樣的東西。最後反而是做 TikTok 的那家公司獲得了最大的價值。

我發現,即使是雄心勃勃的 AGI 目標,也並非遙不可及。通過構建我所設想的遞歸 Agent 體系,所需資金可能並不龐大,更依賴於創新的智慧。我相信,只要擁有足夠深入的思考和技術能力,即便不是行業巨頭,也能參與到 AGI 的進程中。

出門問問的歷程也印證了我的這些思考。我們自 2012 年起便成爲中國首批 AI 公司,從語音助手起步,隨後探索智能硬件(如 TicWatch、TicMirror)。雖然經歷了市場競爭和技術不成熟的挑戰,但我們始終走在最前沿。

2019 年後,我們轉向軟件,成爲中國乃至全球首批 AIGC 軟件公司之一。例如,魔音工坊曾爲抖音等平臺貢獻了大量配音內容,我們還開發了奇妙元(數字人視頻生成)等產品。

在中國這樣的競爭環境中,一家科技公司就像一個不斷迭代、自我修正的 Agent。

正如出門問問的「源代碼」已與 2012 年初創時大相徑庭,這是我們持續進化的體現。