馬斯克領軍的人工智慧公司 xAI 幾個小時前正式發表最新一代 AI 模型 Grok 4,號稱為「地表最聰明 AI」。該模型結合前所未有的推理能力、博士級學術水準與多工具使用的整合,並在多項基準測試中打破紀錄。他預期 Grok 4 將在一年內帶來實質性的技術發明或學術意義。
Introducing Grok 4, the world’s most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025
兩版本:Grok 4 與 Grok 4 Heavy
首先,Grok 4 分為單純的單代理版本 (Single-Agent Version) 的 Grok 4、以及多代理版本 (Multi-Agent Version) 的 Grok 4 Heavy。
Grok 4:基礎版本,以單一 AI agent 處理問題。
Grok 4 Heavy:採用多代理協作模式 (multi-agent collaboration),讓多個代理先各自解決問題,再如同「學習小組」般互相分享解決方案並比較彼此成果,再得出最終答案。
目前,該公司也推出了至今最昂貴的訂閱計劃「SuperGrok Heavy」,每月 300 美元。計畫訂閱者能搶先體驗 Grok 4 Heavy 服務,以及未來所推出功能的優先使用權。
博士等級智慧:從 SAT 滿分到全領域天才
再來,xAI 聲稱 Grok 4 具有超越人類的學術與邏輯能力,成為現階段最接近通用人工智慧 (AGI) 的模型之一。他能在美國 SAT、GRE等高等考試中獲得近乎滿分的成績,並在所有學科表現出博士以上等級的知識涵養。
另外,Grok 4 在多項指標性基準測試中創下新高,展現前所未見的能力邊界。具體包括:
在困難研究生問題 (GPQA)、美國數學考試 (AIME 2025)、美國數學奧林匹克競賽 (USAMO) 等高難度數理邏輯挑戰均在現有 AI 模型中排名第一。
在 Vending-Bench 自動販賣機商業營運模擬測試中,成功讓資產收入翻倍,展現出穩定且貫徹始終的策略制定能力。
生物醫學研究中心 ARC Institute 以 Grok 4 協助自動化其研究流程,高效率推動實驗進行。
其他還有醫療影像檢查、金融策略制定與遊戲開發等領域皆已存在實際應用。
同時,在人類終極測驗 (Humanity’s Last Exam, HLE) 中,Grok 4 能在無輔助情況下解出 25.4% 題目,Grok 4 Heavy 版本則能夠解出 44.4% 的題目,在現有 AI 模型中排名第一。
用 Colossus 超級電腦訓練 Grok 4,運算效率大提升
xAI 透露,Grok 4 的問世背後,是來自硬體與訓練策略的雙重飛躍:「Grok 4 的訓練量是 Grok 2 的 100 倍。」
藉由我們的 Colossus 超級電腦約 20 萬顆 H100 GPU,從預訓練到強化學習 (RLHF),Grok 4 強化了模型對推理任務的專注與精確度。
團隊強調,隨著人類編寫的考題難度已「無法有效訓練」Grok 4,現實世界將成為最終的測試場所,像是能否真正創造有用的發明或技術,藉以判斷它們是否實際有效。
工具整合與現實互動:Grok 4 邁向可操作性 AI
同時,Grok 4 也不只是會思考,更將學會如何動手解決真實世界問題。xAI 表明,不同於其他模型,Grok 4 將工具使用能力納入訓練流程,提升實作與應變能力:
未來幾個月內,Grok 4 將接入特斯拉和 SpaceX 使用的工程分析工具,進入更精密的工程環境。我們更計劃在今年底前向各大公司提供強大的企業級工具與高度精確的物理模擬器。
團隊補充,「當前目標是讓 Grok 能操縱人形機器人 Optimus,並在物理世界中驗證其邏輯與創意的真實與有效性。」
(輝達黃仁勳:華為晶片已追上 NVIDIA H20,馬斯克 Optimus 機器人開啟兆元商機)
超越人類的推理能力:Grok 4 能創造新發明?
再來是 xAI 最引以為傲的推理功能,Grok 4 不僅能從訓練資料中提取知識,更具備經強化訓練所培養的的邏輯思考能力,能在未知情境中自行構建問題解法,並進行多代理的集體思辨驗證,最終跟人類科學家一樣推導出自己的結論:
Grok 4 被設計為從「第一性原理」出發的思考方式,能自行發現問題、建構邏輯並完成複雜的演繹,這是其他與以往 AI 難以觸及的推理場域。
xAI 預期,Grok 4 將在最早今年前、最晚明年發明出真正實用的新技術,並於未來兩年內可能發現目前人類還未知的科學原理。
(專訪馬斯克:AI 超級智慧將爆發、創業者應追求「有用」而非「偉大」的人生)
從市場預測到遊戲創作:Grok 4 應用層面再次擴大
最後,xAI 也展示了 Grok 4 橫跨語音互動與金融商業等多領域的實際應用潛力。以事件趨勢判讀為例,Grok 4 Heavy 能夠查看預測市場 Polymarket、運用統計計算與推理能力,僅用幾分鐘便預測出道奇隊在世界大賽的勝率為 21.6%,展現出超越傳統量化分析工具的即時運算實力。
Grok 4 透過 Polymarket 數據推估道奇隊在 MLB 世界大賽的勝率
(X 宣佈與 Polymarket 合作,作為官方預測市場夥伴)
Grok 的未來願景也令人驚豔,xAI 表示,未來版本將加入影片理解與遊戲互動能力,能夠遊玩遊戲並判斷所謂「樂趣」,甚至整合遊戲引擎自行創造互動與藝術內容。包括電視節目、電影作品與電玩遊戲等。
語音方面,Grok 4 的表現也有重大升級。新版模型引入多種聲音風格與口音,使對話更加自然且流暢。發佈會上還刻意與 GPT 做比較,凸顯 Grok 4 不僅不會打斷使用者,也大大縮短了思考與回應的延遲時間,成為其介面的一大亮點。
Grok 4 不只是工具,更成人類文明推進器
Grok 4 的誕生,不僅代表 AI 邁入更深入的思考與應用階段,據馬斯克所述,更有望引發一場橫跨教育、科學、商業與創意產業的智慧革命,而 Grok 將真正參與其中,而非僅是從旁協助的語言模型或輔助工具。
xAI 開發團隊的未來願景宏大而激進,他們強調:「AI 如今已不再只是幫我們思考,而是與我們共同創造世界。」
這篇文章 博士級 AI?馬斯克 xAI 推出 Grok 4:多代理推理、預測市場功能一次看 最早出現於 鏈新聞 ABMedia。