在当今科技飞速发展的时代,AI(人工智能)在金融投资领域的应用备受瞩目。近日,一场备受全球关注的AI大模型实时投资比赛“Alpha Arena”圆满落幕,为我们揭示了AI在真实金融市场中自主交易的能力与潜力。
这场比赛历时17天,全球六大顶尖AI大模型齐聚一堂,每个模型都拥有1万美元初始资金,在真实的加密货币市场进行自主决策与交易。没有人工干预,一切盈亏都由模型自身的策略和判断来决定。真实市场、真金白银、真实基准,这场比赛无疑是对AI投资能力的一次严峻考验。
北京时间11月4日,比赛结果揭晓,来自中国的两款大模型在众多强劲对手中脱颖而出,保持领先。其中,阿里巴巴的千问Qwen(Qwen3-Max)凭借出色的表现夺得冠军,另一家中国公司DeepSeek的DeepSeek v3.1则名列第二。这一结果不仅展示了中国AI技术的实力,也为全球AI金融投资领域带来了新的启示。
此次竞赛由国际第三方机构Nof1于10月18日发起,集合了Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大顶尖模型。每个模型都以相同的初始资金在真实市场上展开无人工干预的自主交易,最终根据盈亏情况决出胜负。这种公平、公正的比赛方式,为评估AI在金融投资领域的真实能力提供了有力依据。
Nof1公司表示,他们坚信金融市场是下一代人工智能的最佳训练环境。在“Alpha Arena”比赛开始一周后,Nof1发文阐述了第一季Alpha Arena的两个主要目标。其一,通过比较分析,揭示主流LLM(大语言模型)存在的隐性偏见和默认的交易行为,探究模型之间的交易方式是否存在巨大差异,以及它们是否随着时间保持一致、在哪里犯错等。其二,帮助将AI研究文化转向现实世界基准,远离静态的、考试式的基准,强调在更具后果性、现实环境中评估AI的力量,以发现关键差距和见解,推动前沿AI的发展。
经过17天真实世界的交易,比赛结果出乎所有人的意料。阿里巴巴的Qwen 3 Max以22.32%的收益率夺冠,DeepSeek v3.1的收益率为4.89%。而来自硅谷的四位明星选手则全线溃败。OpenAI的GPT-5亏损62.66%,Google的Gemini 2.5 Pro亏损56.71%,马斯克旗下xAI的Grok 4亏损45.3%,Anthropic的Claude 4.5 Sonnet也亏损了30.81%。这一结果不仅展示了中国AI模型在金融投资领域的优势,也暴露了其他模型在处理复杂金融数据时的不足。
对于这场比赛,Nof1负责人Jay A在社交媒体中表示:“我们观察到模型存在持续的偏差,这种偏差随着时间的推移和提示信息的多次迭代而持续存在。我们也特意将模型置于一个困难的境地。LLM模型实际上并不擅长处理数值时间序列数据,但这正是我们给它们提供的全部背景信息。此外,它们还被赋予了一个受限的资产范围和一个相当有限的行动空间。”
同时,Nof1宣布下一季比赛即将启动,周期会更长,参与者会更多,市场环境也会更复杂。Nof1人工智能负责人Julian Togelius在社交媒体上透露,下一季的测试将会有许多改进,以更好地评估AI在金融投资领域的真实能力。

六个AI模型的收益变化图 图片来源:Nof1官网截图
11月5日,基于此次实盘投资竞赛,《每日经济新闻》记者(以下简称“NBD”)独家专访了纽约大学坦登工程学院计算机科学与工程系副教授、Nof1人工智能负责人Julian Togelius,就比赛结果、设计初衷以及未来AI金融投资的发展趋势进行了深入探讨。
NBD:第一季比赛结束了,来自中国的两款大模型收益率保持领先。最终的比赛结果在你的预期之内吗?
Julian Togelius:根据初步测试,我们预期这些模型会展现出不同的投资风格。因此,结果出现显著差异是意料之中的。我们并不确定哪些模型会脱颖而出,但我们曾开玩笑说,DeepSeek或许会表现出色,因为该公司起源于一家量化交易公司。结果证明我们的猜测是正确的。我们也十分欣喜地看到,表现最佳的模型都是开源的,因为开源人工智能对世界有好处。
NBD:这次比赛持续了17天时间。有评论认为相比真实市场的量化交易,17天的时间似乎有点短暂。为什么考虑设计这个时间维度?
Julian Togelius:我们是一家身处快速发展领域的初创公司,所以我们希望快速迭代。我们为即将到来的赛季有很多激动人心的想法,并希望尽快进行尝试。诚然,真正的交易需要更长的时间跨度……但这项比赛只是我们在Nof1工作的一个方面。
NBD:在比赛过程中,6款AI模型前几天整体差距还比较小,但随着时间的拉长,各个大模型呈现了各具特色的投资风格。流动的时间对大模型而言意味着什么?
Julian Togelius:这些模型的性格随时间推移保持稳定。然而,早期投资决策的结果可能意味着模型会让自己置身于或多或少困难的境地,并会以不同的方式应对。GPT-5似乎一度陷入决策瘫痪,但如果它从一开始就交易得更好,这种情况或许就不会发生。同样,如果Qwen的财务状况更糟,它那种激进的投资风格或许也不会出现。
NBD:下一季的比赛中会有哪些调整和优化?是否可以添加一些新闻、财报、宏观经济、市场情绪和其他非技术信息,供人工智能在投资前进行分析,以模拟更真实的交易环境?
Julian Togelius:你提到的因素我们都讨论过了,我们希望在不久的将来能够实现。不过,我们会一步一步来。我不会提前透露下一版本会做哪些改动——它很快就会发布。但我们预计会快速推进,并在后续版本中逐步整合更多信息。我们的目标是开发出比任何现役交易员都更优秀的AI金融投资智能体。
NBD:这次比赛引发了大量关注,你认为这场AI投资比赛的真正价值是什么?是比较模型性能,还是验证AI能否真正走向市场化?投资比赛是否可能演变为AI金融行业的一种长期机制?
Julian Togelius:我们坚信,未来人类将通过指导或构建自己的AI金融投资智能体来进行交易。人类与AI专业知识的结合必然优于人类或AI单独运作。我们正在构建一个系统,让任何人都能通过AI金融投资智能体进行交易,而本次大赛正是朝着这个目标迈出的重要一步。(实习生张京宝对本文亦有贡献)