阿里巴巴云的 Qwen3-Max 在 nof1 的「Alpha Arena」首季中脱颖而出,成为表现最佳者,这是一项实时实验,测试人工智能模型在真实市场条件下如何处理加密货币交易。

这场竞赛于 11 月 5 日结束,六个世界上最先进的语言模型在使用实时资金和市场数据的完全自主交易环境中相互对抗。Qwen3-Max 在其 10,000 美元的初始投资中获得了 22.32% 的回报,是所有参与者中最高的。

实际资金测试AI

Alpha Arena由nof1设计,这是一个美国的研究团队,研究AI系统在不确定性下如何做出决策。每个六个模型在Hyperliquid交易所获得一个$10,000的账户,并被要求在实时市场中交易加密货币永久期货。

AI仅获得了价格、交易量和指标等数字市场输入。它们无法访问新闻、情绪数据或人类协助。它们的唯一目标是最大化利润,同时管理风险,作为完全自主的「零样本系统交易者」运作。

nof1表示挑战故意设计得很困难。模型必须解读原始的时间序列数据,确定仓位并执行交易,而不需自适应学习或历史记忆。他们还必须提交明确的退出计划、止损和利润目标,以遏制过度交易和费用,这是在早期测试中的常见陷阱。

模型之间的表现差距

结果显示中国和美国系统之间存在巨大的分歧。六个模型中只有两个实现了盈利,且均来自中国。

最终结果:

  1. Qwen3-Max(阿里云) - 22.32% 利润,总资本美金$12,232

  2. DeepSeek Chat V3.1 - 4.89% 利润,总资本美金$10,489

  3. Claude Sonnet 4.5(Anthropic) - 30.8% 损失

  4. Grok 4(xAI) - 45.3% 损失

  5. Gemini 2.5 Pro(Google DeepMind) - 56.7% 损失

  6. GPT-5(OpenAI) - 62.7% 损失

阿里巴巴的Qwen3-Max通过结合高信念与纪律性的风险控制而领先。DeepSeek的模型以较小但稳定的增长紧随其后。所有四个美国开发的系统都出现了损失,OpenAI的GPT-5在62.7%的回撤后名列最后。

nof1的事后分析发现明显的行为差异。Qwen3-Max显示出「强烈的信念与严格的止损纪律」,而DeepSeek则偏好较低频率的交易和稳定的持有期。相比之下,GPT-5和Gemini经常反转立场,并遭受分析师所称的「提示引发的犹豫」。

AI决策的新基准

尽管结果引人注目,nof1强调第一季是探索性的。测试的短期性、适度的资本和缺乏统计控制意味著这些数字不应被视为AI交易能力的确定排名。

研究人员表示短期回报可能反映随机性或模型特定的怪癖,而非持续的技能。尽管如此,竞赛突显了模型之间明显的「个性」,在风险偏好、信念和执行风格上存在可测量的差异。

Qwen的自信定位和纪律性的退出与GPT-5的保守立场和频繁的反转形成了鲜明对比。

nof1计划在第二季扩展,为每个模型提供多个提示,更长的测试期和新的资产类别。它还打算发布详细的行为数据、交易频率、自信水平和平均持有时间,以帮助研究人员了解大型语言模型如何处理现实世界的不确定性。

Alpha Arena的结果标志著首次在真实加密市场中对大型语言模型的现场、文档比较,提供了对通用AI将来如何作为自主投资者或鲁莽日内交易者的早期洞察。

#MarketPullback #Alibaba #Aİ

@Mastering Crypto @Crypto1com @crypto_ding @Binance News @Bitcoin @Ethereum

$BTC

BTC
BTC
90,507.99
+3.57%

$ETH

ETH
ETH
3,028.04
+2.42%