爲什麼多模態的模塊化是 Web3AI 的錯覺? Web3AI 爲什麼要以農村包圍城市作爲戰術綱領?

作者： @BlazingKevin_ ，the Researcher at Movemaker
英偉達已經悄然收復了Deepseek帶來的全部跌幅，甚至再度攀上新高，多模態模型的進化並沒有帶來混亂，反而加深了Web2 AI的技術壁壘——從語義對齊到視覺理解，從高維嵌入到特徵融合，複雜模型正以前所未有的速度整合各種模態的表達方式，構建出一個愈發封閉的AI高地。美股市場也用腳投票，無論是幣股還是AI股，紛紛走出一波小牛行情。而這股熱浪，卻和Crypto沒有一點聯繫。我們看到的Web3AI嘗試，特別是近幾個月Agent方向的演化，方向性幾乎完全錯誤：一廂情願地想用去中心化結構去拼裝Web2式的多模態模塊化系統，實際上是一種技術和思維的雙重錯位。在模塊耦合性極強、特徵分佈高度不穩定、算力需求日益集中的今天，多模態模塊化在Web3里根本立不住。我們要指出的是：Web3AI的未來不在模仿，而在策略性迂迴。從高維空間的語義對齊，到注意力機制中的信息瓶頸，再到異構算力下的特徵對齊，我將一一展開，解釋爲什麼Web3AI要以農村包圍城市作爲戰術綱領.
Web3AI基於扁平化的多模態模型, 語義無法對齊導致性能低下
在現代 Web2 AI 的多模態系統中，“語義對齊”指的是將來自不同模態（如圖像、文本、音頻、視頻等）的信息映射到同一個、或可互相轉換的語義空間中，使得模型能夠理解並比較這些原本形式迥異的信號背後的內在含義。舉例來說，一張貓的照片和一句“a cute cat”這段文字，模型需要在高維嵌入空間中將它們投影到彼此接近的位置，這樣才能在檢索、生成或推理時做到“看圖能說話”“聽音能聯想畫面”。
只有在實現高維嵌入空間的前提下, 將工作流分成不同模塊纔有降本增效的意義. 但是在web3 Agent協議裏, 卻無法實現高維嵌入, 因爲模塊化是Web3AI的錯覺.
如何理解高維嵌入空間? 在最直觀的層面，把“高維嵌入空間”想象成一個座標系——就像平面上的 x–y 座標那樣，你可以用一對數字來定位一個點。只是在我們常見的二維平面裏，一個點由兩個數（x, y）完全決定；而在“高維”空間裏，每個點要用更多的數字來描述，可能是 128 個、512 個，甚至上千個數字。
由淺入深，分三步來理解：
二維示例：
想想你在地圖上標記了幾個城市的座標，比如北京（116.4, 39.9）、上海（121.5, 31.2）、廣州（113.3, 23.1）。這裏每個城市就對應一個“二維嵌入向量”（embedding vector）：兩維座標把地理位置信息編碼進了數字裏。
如果你想衡量城市之間的“相似度”——在地圖上距離近的城市往往在同一經濟區或氣候區——就可以直接比較它們座標的歐氏距離。
擴展到多維：
現在假設你不僅想描述“地理空 間”上的位置，還想加上一些“氣候特徵”（平均氣溫、降雨量）、“人口特徵”（人口密度、GDP）等。你就可以爲每個城市分配一個包含這 5、10、甚至更多維度的向量。
比如廣州的 5 維向量可能是 [113.3, 23.1, 24.5, 1700, 14.5]，分別代表經度、緯度、平均氣溫、年降雨量（毫米）、經濟指數。這個“多維空間”允許你同時按地理、氣候、經濟等多個維度比較城市：如果兩個城市的向量很接近，就意味着它們在這幾種屬性上都非常相似。
切換到語義——爲什麼要“嵌入”：
在自然語言處理（NLP）或計算機視覺中，我們也希望把“詞語”、“句子”或者“圖像”映射到一個這樣的多維向量裏，讓“相似意思的”詞或圖像在空間裏靠得更近。這個映射過程就叫“嵌入”（embedding）。
舉例：我們訓練一個模型，把“cat”（貓）映射到一個 300 維向量 v₁，把“dog”（狗）映射到另一個向量 v₂，把“不相關”的詞比如“economy”（經濟）映射到 v₃。那麼在這個 300 維空間中，v₁ 和 v₂ 的距離會很小（因爲它們都是動物、經常在類似的語言環境中出現），而 v₁ 距離 v₃ 會很大。
隨着模型在海量文本或圖像-文本對上訓練，它學到的每一維並不直接對應“經度”、“緯度”之類的可解釋屬性，而是某種“隱含語義特徵”。有的維度可能捕捉到“動物 vs. 非動物”這一粗粒度劃分，有的維度可能區分“家養 vs. 野生”，還有的維度可能對應“可愛 vs. 威猛”的感覺……總之，成百上千個維度共同工作，才能把各種複雜的、交織的語義層面都編碼進去。
高維和低維的差距是什麼? 只有足夠多的維度，才能容納多種多樣、互相交織的語義特徵, 只有高維能讓它們在各自的語義緯度上有更清晰的位置。 當語義無法被區分,即語義無法對齊時, 低維空間中不同信號相互“擠壓”，導致模型在檢索或分類時頻繁產生混淆，準確率大幅下降；其次，策略生成階段難以捕捉細微差異，容易漏掉關鍵交易信號或誤判風險閾值，直接拖累收益表現；再者，跨模塊協同變得不可能，各 Agent 各自爲政，信息孤島現象嚴重，整體響應時延增大、魯棒性變差；最後，面對複雜市場場景，低維結構幾乎無容量承載多源數據，系統穩定性和擴展性都難以保障，長期運行勢必陷入性能瓶頸和維護困境, 導致產品落地後表現和最初的預想差距甚遠.
那麼Web3AI或者Agent協議能夠實現高維嵌入空間嗎? 首先回答高維空間是怎麼實現的, 傳統意義上的“高維度”要求各子系統——如市場情報、策略生成、執行落地、風險控制——在數據表示和決策流程上相互對齊、互補增益。而多數 Web3Agent 只是把現成 API（CoinGecko、DEX 接口等）各自封裝成獨立“Agent”，缺乏統一的中樞嵌入空間和跨模塊注意力機制，導致信息無法在模塊間多角度、多層次地交互，只能走線性流水線，表現出單一功能，無法形成整體閉環優化。
很多 Agent 直接調用外部接口，甚至未對接口返回數據做足夠的微調或特徵工程。例如市場分析 Agent 僅簡單取價格與成交量，交易執行 Agent 只按接口參數下單，風險控制 Agent 只是按照幾個閾值報警。它們各司其職，但缺乏對同一風險事件或市場信號的多模態融合與深度語義理解，導致系統不能在面對極端行情或跨資產機會時，快速生成綜合性、多角度的策略。
因此, 要求Web3AI實現高維空間, 變相等於要求Agent協議自行開發所有涉及的API接口, 這與其模塊化的初衷是背道而馳, Web3AI裏中小企業描繪的模塊化多模態系統是經不起推敲的. 高維度架構要求端到端的統一訓練或協同優化：從信號捕捉到策略演算，再到執行和風控，所有環節共享同一套表示和損失函數。Web3Agent 的“模塊即插件”思路反而加劇了碎片化——每個 Agent 升級、部署、調參都在各自 silo 內完成，難以同步迭代，也無有效的集中監控與反饋機制，造成維護成本飆升，整體性能受限。
要實現具有行業壁壘的全鏈路智能體，需要從端到端的聯合建模、跨模塊的統一嵌入，以及協同訓練與部署的系統化工程才能破局, 但是當前市場並沒有這樣的痛點存在, 自然也沒有市場需求.
低維度空間中, 注意力機制無法被精密設計
高水平的多模態模型需要設計精密的注意力機制. “注意力機制”本質上是一種動態分配計算資源的方式，能夠讓模型在處理某一模態輸入時，有選擇地“聚焦”到最相關的部分。最常見的是 Transformer 中的自注意力（self‑attention）和跨注意力（cross‑attention）機制：自注意力使模型內部能夠衡量序列中各元素兩兩間的依賴關係，比如文本中每個詞與其他詞的重要性；跨注意力則讓一條模態的信息（如文本）在對另一條模態（如圖像的特徵序列）進行解碼或生成時決定“看”哪些圖像特徵。通過多頭注意力（multi‑head attention），模型能在不同的子空間同時學習多種對齊方式，從而捕捉更復雜、更細粒度的關聯。
注意力機制發揮作用的前提是多模態具備高維度, 在高維度空間中, 精密的注意力機制能在最短時間裏從海量高維度空間中找到最核心的部分. 在解釋爲什麼注意力機制需要被放在高維度空間中才能施展作用前, 我們先了解以 Transformer解碼器爲代表Web2 AI在設計注意力機制時的流程. 核心思想是在處理序列（文字、圖像 patch、音頻幀）時，模型給每個元素動態分配“注意力權重”，讓它聚焦最相關的信息，而不是盲目平等對待。
簡單來說, 如果把注意力機制比作一臺車,設計Query‑Key‑Value就是設計發動機. Q-K-V是幫助我們確定關鍵信息的機制, Query指查詢(“我要找什麼”), Key指索引(“我有什麼標籤”), Value指內容(“這裏有什麼內容”). 對於多模態模型來說, 你輸入給模型的內容可能是一句話,可能是一張圖片,也可能是一段音頻. 爲了在維度空間中檢索我們需要的內容, 這些輸入會被切割成最小單位, 如一個字符、 一定像素大小的小塊或者一段音頻幀, 多模態模型會給這些最小單位生成Query、Key、Value，來進行注意力計算。 當模型處理某個位置時，它會用這一位置的 Query 去對比所有位置的 Key，判斷哪些標籤與當前需求最匹配，然後根據匹配程度，從對應的位置把 Value 抽取出來並按重要性加權組合，最終得到一個既包含自身信息又融入了全局相關內容的新表示。這樣，每一個輸出都能根據上下文動態“提問—檢索—整合”，實現高效而精準的信息聚焦。
在此發動機的基礎上,增添各種零件, 巧妙地把“全局交互”與“可控複雜度”結合起來：縮放點積保障數值穩定，多頭並行豐富表達，位置編碼保留序列順序，稀疏變體兼顧效率，殘差與歸一化助力穩定訓練，交叉注意力打通多模態。這些模塊化又層層遞進的設計，使得 Web2 AI 在處理各種序列與多模態任務時，既擁有強大的學習能力，又能在可承受的算力範圍內高效運行。
爲什麼基於模塊化的Web3AI不能實現統一的注意力調度? 首先, 注意力機制依賴於統一的 Query–Key–Value 空間，所有輸入特徵都要被映射到同一個高維向量空間，才能通過點積計算動態權重。而獨立 API 各自返回不同格式、不同分佈的數據——價格、訂單狀態、閾值報警——沒有統一的嵌入層，根本無法形成一組可交互的 Q/K/V。 其次, 多頭注意力允許在同一層同時並行關注不同信息源，然後聚合結果；而獨立 API 常常是“先調用 A，再調用 B，再調用 C”，每一步的輸出只是下一個模塊的輸入，缺少並行、多路動態加權的能力，自然無法模擬 注意力機制 中那種同時對所有位置或所有模態打分、再綜合的精細調度。最後, 真正的注意力機制會基於整體上下文爲每個元素動態分配權重；API 模式下，模塊只能看到自己被調用時“獨立的”上下文，彼此之間沒有實時共享的中樞上下文，也就無法實現跨模塊的全局關聯和聚焦。
因此，僅靠將各類功能封裝成離散的 API——沒有共同的向量表示、沒有並行加權與聚合，就無法構建出像 Transformer 那樣的“統一注意力調度”能力, 就如同一輛發動機性能低下的車無論怎樣改裝都難以提高上限.
離散型的模塊化拼湊,導致特徵融合停留在淺顯的靜態拼接
“特徵融合”則是在對齊和注意力的基礎上，將不同模態處理後得到的特徵向量進行進一步組合，以供下游任務（分類、檢索、生成等）直接使用。融合手段可以簡單到拼接、加權求和，也可以複雜到雙線性池化、張量分解甚至動態路由技術。更高階的方法則是在多層網絡中交替進行對齊、注意力和融合，或者通過圖神經網絡（GNN）在跨模態特徵之間建立更靈活的消息傳遞路徑，以實現信息的深度交互。
自不必說, Web3AI當然是停留在最簡單的拼接的階段, 因爲動態特徵融合的前提是高維空間以及精密的注意力機制, 當前提條件無法具備時, 自然最後階段的特徵融合也無法做到性能出色.
Web2 AI 傾向於端到端聯合訓練：在同一個高維空間中同時處理圖像、文本、音頻等所有模態特徵，通過注意力層和融合層與下游任務層一起協同優化，模型在前向與反向傳播中自動學習最優的融合權重和交互方式；而 Web3 AI 則更多采用離散模塊拼接的做法，將圖像識別、行情抓取、風險評估等各類 API 封裝爲獨立 Agent，再把它們各自輸出的標籤、數值或閾值報警簡單拼湊，由主線邏輯或人工進行綜合決策，這種方式既缺乏統一的訓練目標，也沒有跨模塊的梯度流動。
在 Web2 AI 中，系統依託注意力機制，能夠根據上下文實時計算各類特徵的重要性分數，並動態調整融合策略；多頭注意力還可在同一層面並行捕捉多種不同的特徵交互模式，從而兼顧局部細節與全局語義。而 Web3 AI 則常常事先固定好“圖像×0.5 + 文本×0.3 + 價格×0.2”這樣的權重，或用簡單的 if/else 規則來判斷是否融合，要麼根本不做融合，只把各模塊輸出一併呈現，缺乏靈活性。
Web2 AI 將所有模態特徵映射到數千維的高維空間，融合過程不僅是向量拼接，還包括加法、雙線性池化等多種高階交互操作——每一維都有可能對應某種潛在語義，使模型能夠捕捉深層次、複雜的跨模態關聯。相比之下，Web3 AI 的各 Agent 輸出往往僅含幾個關鍵字段或指標，特徵維度極低，幾乎無法表達諸如“圖像內容與文本含義爲何匹配”或“價格波動與情感走勢的微妙關聯”這類細膩信息。
在 Web2 AI 中，下游任務的損失會通過注意力層和融合層不斷回傳到模型各部分，自動調整哪些特徵應當被強化或抑制，形成閉環優化。反觀 Web3 AI，其 API 調用結果上報後多仰賴人工或外部流程來評估和調參，缺少自動化的端到端反饋，導致融合策略難以在線迭代和優化。
AI行業的壁壘正在加深,但是痛點還未出現
正因爲要在端到端的訓練中同時兼顧跨模態對齊、精密的注意力計算和高維特徵融合，Web2 AI 的多模態系統往往是一個極其龐大的工程項目。它不僅需要海量、多樣化且精標註的跨模態數據集，還得投入數以千計的 GPU 數週乃至數月的訓練時間；在模型架構上，融合了各種最新的網絡設計理念和優化技術；在工程實現上，還要搭建可擴展的分佈式訓練平臺、監控系統、模型版本管理與部署流水線；在算法研發上，需要持續研究更高效的注意力變體、更魯棒的對齊損失以及更輕量的融合策略。這樣全鏈路、全棧式的系統性工作，對資金、數據、算力、人才乃至組織協同的要求都極高，因此構成了極強的行業壁壘，也造就了截至目前少數領先團隊所掌握的核心競爭力。
我在4月回顧中文AI應用, 並對比WEB3ai時提到一個觀點:在壁壘很強的產業上，Crypto有可能實現突破，意思某些產業在傳統市場中已經非常成熟，但是又出現巨大的痛點，成熟度高意味着有充分的用戶熟悉類似商業模式，痛點大意味着用戶願意嘗試新的解決方案，即對Crypto的接受意願強，二者缺一不可，即反過來說，如果不是在傳統市場中已經非常成熟，但是又出現巨大的痛點的產業，Crypto無法在其中紮根，不會有生存空間，用戶願意充分了解它的意願很低，對於它的潛在上限不瞭解。
WEB3AI或者任何打着PMF旗號的Crypto產品都需要以農村包圍城市的戰術去發展,應該在邊緣陣地小規模試水, 確保基礎牢固後, 再等待覈心場景也就是目標城市的出現. **** **Web3AI的核心在於去中心化，其演進路徑體現爲高並行、低耦合及異構算力的兼容性。**這使得Web3AI在邊緣計算等場景中更具優勢，適用於輕量化結構、易並行且可激勵的任務，例如LoRA微調、行爲對齊的後訓練任務、衆包數據訓練與標註、小型基礎模型訓練，以及邊緣設備協同訓練等。這些場景的產品架構輕巧，路線圖可靈活迭代。但是這並不是說機會在現在, 因爲WEB2AI的壁壘纔剛開始形成的初期, Deepseek的出現反而激發了多模態複雜任務AI的進步, 這是頭部企業的競爭, 是WEB2AI紅利出現的早期階段, 我認爲只有當WEB2AI的紅利消失殆盡時, 它遺留下來的痛點纔是WEB3AI切入的機會, 正如當初誕生的DeFi, 而在時間點到來之前, WEB3AI的自創痛點還會層出不窮的進入市場, 我們需要仔細辨別其中具有“農村包圍城市”的協議, 是否從邊緣切入, 先在力量薄弱、市場紮根場景少的鄉村（或小市場、小場景）站穩腳跟，逐步積累資源和經驗;是否點面結合、環形推進, 能夠在一個足夠小的應用場景裏不斷迭代, 更新產品, 如果這都無法做到, 那麼想在此基礎上依靠PMF實現10億美元市值難於登天, 這類項目也不會在關注列表中; 是否可以打持久戰與靈活機動, WEB2AI的潛在壁壘在動態變化, 與之對應的潛在痛點也在進化, 我們需要關注WEB3AI協議是否需有充分的靈活性, 對於不同場景可以靈活轉身, 能在農村之間快速移動, 以最快速度向目標城市靠攏, 如果協議本身過於喫基建, 網絡架構龐大, 那麼可能被淘汰的可能性很大.
關於 Movemaker
Movemaker 是由 Aptos 基金會授權，經 Ankaa 和 BlockBooster 聯合發起的首個官方社區組織，專注於推動 Aptos 華語區生態的建設與發展。作爲 Aptos 在華語區的官方代表，Movemaker 致力於通過連接開發者、用戶、資本及衆多生態合作伙伴，打造一個多元、開放、繁榮的 Aptos 生態系統。
免責聲明：
本文/博客僅供參考，代表作者的個人觀點，並不代表 Movemaker 的立場。本文無意提供：(i) 投資建議或投資推薦；(ii) 購買、出售或持有數字資產的要約或招攬；或 (iii) 財務、會計、法律或稅務建議。持有數字資產，包括穩定幣和 NFT，風險極高，價格波動較大，甚至可能變得一文不值。您應根據自身的財務狀況，仔細考慮交易或持有數字資產是否適合您。如有具體情況方面的問題，請諮詢您的法律、稅務或投資顧問。本文中提供的信息（包括市場數據和統計信息，若有）僅供一般參考。在編寫這些數據和圖表時已盡合理注意，但對其中所表達的任何事實性錯誤或遺漏概不負責。
爲什麼多模態的模塊化是 Web3AI 的錯覺? Web3AI 爲什麼要以農村包圍城市作爲戰術綱領?

創作者的更多內容

實時新聞

爲什麼多模態的模塊化是 Web3AI 的錯覺? Web3AI 爲什麼要以農村包圍城市作爲戰術綱領?

創作者的更多內容

實時新聞

熱門文章