回到未来:评估人工智能代理在预测未来事件方面的能力

发布于 2025 年 7 月 17 日
在 GitHub 上更新

人工智能的未来

目前大多数人工智能基准都侧重于回答关于过去的问题,无论是通过在现有知识(以静态方式,如 HLE 或 GPQA,或增强方式,如 BrowseComp 或 GAIA)上测试模型,还是测试先前解决的问题(如 PaperBench、DABStep 或大多数编码评估)。然而,我们相信,更有价值的人工智能,以及最终的通用人工智能,将通过其利用过去预测未来有趣方面的能力来区分,而不仅仅是复述旧事实。

预测未来事件是一项复杂而全面的任务:它需要复杂的推理、综合、权衡概率和真正的理解,而不是针对现有信息进行模式匹配或搜索。评估模型预测未来结果的能力,无论是在科学、经济、地缘政治还是技术领域,都考验着能够创造现实世界价值的智能。

除了其固有的重要性之外,这种基于预测的方法还解决了当前评估和基准面临的许多方法学问题。衡量固定测试集准确性的传统基准不可避免地受到可能的数据污染的影响,如果没有模型完整的可重现训练管道的访问权限,很难信任结果。现在最严肃的评估工作将其测试集完全保密,在评估者和潜在的“游戏排行榜”机制(Singh 等,2025)之间造成了令人沮丧的军备竞赛。

预测从设计上就**不可能被污染**,因为你无法对尚不存在的数据进行训练!这创造了一个公平的竞争环境,成功取决于推理能力而不是记忆力。

也许最重要的是,关于未来的预测**本质上是可验证的**。我们可以拭目以待谁是对的,从而获得一个客观的、带时间戳的模型性能衡量标准。

因此,我们建议评估代理预测未来事件的能力(Ye 等,2024;Karger 等,2025)。**FutureBench** 从现实世界的预测市场和新兴新闻中汲取灵感,创建基于实际未来结果的有趣预测任务。我们从平台和实时新闻报道以及多种市场收集事件,并进行筛选,重点关注值得预测的新兴事件。通过基于代理的方法,我们策划了需要真实推理而不是简单模式匹配的场景。设想地缘政治发展、市场动向或技术采用趋势——这些事件中,知情分析确实很重要。

代理能否预测未来事件?

这是一个显而易见的问题,也是这个基准之所以有趣的核心!我们认为答案不能简单地是“是”或“否”,因为它主要取决于实际问题;总有重要的注意事项需要考虑。人类不断利用他们权衡当前信息的能力来预测未来事件。大多数职业变动、人际关系选择,甚至商业策略,本质上不都是对未来结果的押注吗?

有些预测涉及不可约减的不确定性(2027年12月17日中午会下雨吗?),但许多则不然。当一位熟练的分析师预测公司的季度收益,或一位政策专家预测选举结果时,他们都在利用现有信息做出明智的决策。这正是我们要求人工智能代理使用 FutureBench 来做的事情!任务不是让代理算命,而是让它们在比大多数其他基准更强的不确定性下综合信息和进行推理。

代理的预测质量直接反映了其搜索相关信息、综合复杂数据以及推理因果关系的能力。这些正是我们希望在实际应用中衡量的能力。

DeepResearch 这样的工具已经被用于市场分析和战略规划。信息收集的质量与决策的有效性密切相关。FutureBench 受此评估过程启发,并试图通过客观、可验证的结果来计算代理的质量。

FutureBench

构建一个测试真实预测能力的基准需要源源不断地提供有意义的问题。我们开发了两种互补的方法来捕捉不同类型的未来事件。

1. 新闻生成问题:今天发现明天的头条新闻

我们的第一个方法利用人工智能从时事中挖掘预测机会。我们部署了一个基于 smolagents 的代理,用于抓取一些主要新闻网站,分析头版文章,并生成关于其可能结果的预测问题。该代理阅读并识别有趣的文章,并从其内容中提出具体的、有时限的问题,例如“美联储会在2025年7月1日前至少降息0.25%吗?”

我们通过精心设计的提示来指导这一过程,这些提示指明了什么是一个好的预测问题——有意义的、可验证的、且在提取时间不确定的事件。

技术栈

  • 模型:DeepSeek-V3 用于推理和问题生成
  • 抓取:Firecrawl 用于可靠的内容提取
  • 搜索:Tavily 用于在需要时提供额外上下文

该代理通常每次抓取会生成5个问题,时间跨度为一周,这意味着我们假设我们会在七天后知道问题的答案。这为我们提供了一个与现实世界事件相关的全新评估材料的自然管道。

2. Polymarket 集成:利用预测市场

我们的第二个来源来自 Polymarket。这些问题来自一个预测市场平台,真实参与者在此平台上对未来事件进行预测。我们目前每周大约摄取8个问题。

然而,原始数据需要筛选。我们应用了强有力的过滤来去除关于气温的一般问题以及一些关于股票和加密货币市场的问题,否则这些问题会太多,不适用于我们的基准。除此之外,Polymarket 问题对最终的“实现”时间限制较少,事件的实际结果可能要到下个月或年底才能得知。这些仍然是非常相关的问题,但结果的数据收集更为稀疏。

示例问题

以下是我们问题生成流程的输出示例

新闻生成 Polymarket
"美联储会在2025年7月1日前至少降息0.25%吗?" "6月份月通胀率会增加0.2%吗?"
"乌克兰和俄罗斯会在2025年7月8日前举行和平谈判吗?" "Zohran Mamdani 在纽约市市长民主党初选中,RCV 胜选幅度会大于13%吗?"

未来基准:三个层次的系统评估

接下来的问题是,这种类型的基准能让我们衡量什么?该框架在三个不同的层面上运行,使我们能够精确地分离出我们正在衡量的东西。

  • 第一层:框架比较 保持底层 LLM 和工具不变,同时改变框架。一个基于 LangChain 的代理与一个使用 CrewAI 构建的代理相比如何?两者都使用 GPT-4 和相同的搜索工具。这隔离了不同代理框架的影响。

  • 第二层:工具性能 固定 LLM 和框架,同时比较不同的实现。哪个搜索工具(例如 Tavily、Google、Bing)能带来比其他搜索引擎更好的预测结果,同时保持其他所有条件不变?这揭示了哪些工具真正提供了价值。工具与没有工具的模型相比,总体上带来了多少价值?

  • 第三层:模型能力 保持框架和工具不变,同时测试不同的 LLM。在访问相同工具集的情况下,DeepSeek-V3 能否像 GPT-4 一样有效地使用它们?这衡量的是纯粹的推理能力。这种系统方法使我们能够准确了解代理管道中性能增益和损失发生的位置。

该基准也作为对指令遵循的有力测试。代理必须遵守特定的格式要求并生成可正确解析和执行的操作。在实践中,这通常揭示了较小的语言模型在复杂多步推理方面的不足之处。

🚀 自己试试! 探索实时排行榜:FutureBench 互动排行榜

预测未来:代理和初步结果

我们使用 SmolAgents 作为所有问题的基准代理框架。我们还计算了基础模型的性能。对于预测任务本身,代理可以使用一个专门的工具包:

  • 搜索:集成 Tavily,用于查找最新信息和专家分析
  • 网络抓取工具:一个简单的网络抓取工具,用于跟踪特定来源并获取详细上下文。

这种有意精简的设置迫使代理在信息收集方面采取策略,同时仍提供进行知情预测所需的工具。

初步结果

我们使用 smolagents 作为基准来比较不同的模型(你可以在我们的 HF Space 上找到排行榜)。我们还运行了没有互联网访问的标准语言模型,以估算一个普遍先验。不出所料,我们看到代理模型比简单的语言模型表现更好;更强的模型显示出更稳定的预测质量。总的来说,我们还发现不同模型在处理问题时有有趣的模式。

有趣的行动模式

运行此基准揭示了不同模型如何进行信息收集的见解。一个显著的区别在于抓取方面。GPT-4.1 似乎更依赖搜索结果。Claude3.74 更详细地探索网络空间,并倾向于更频繁地使用网络抓取;这种彻底的方法也意味着在研究过程中收集更多的输入令牌,从而增加了成本。

模型在进行预测时展现出有趣的方法,例如,回答“六月份年度通胀率会增加2.6%或更多吗?”这个问题:

  • DeepSeekV3 代理通过搜索最近的 CPI 数据(发现当前通胀率为2.4-2.8%)来分析2025年6月的通胀前景,考虑关税影响作为上涨压力,并得出结论认为通胀将超过2.6%的门槛。

  • Claude3.7 通过全面研究(11次搜索,而 DeepSeekV3 为3次)分析了2025年6月的通胀情况,系统地收集了2025年5月的 CPI 数据(同比2.4%),识别出月度趋势正在减速(0.2%→0.1%),权衡了关税压力与美联储限制性政策,精确计算出所需的0.2%差距,并得出结论,鉴于最近的减速,达到2.6%的门槛不太可能,回答为“否”。

  • GPT4.1 通过针对性地搜索市场共识和预测来分析2025年6月的通胀情况,发现2025年5月 CPI 为2.4%(低于预期2.5%),注意到月度增幅微弱(0.1%),未发现任何预测者预测6月份会达到2.6%以上,并得出结论,鉴于近期低于预期的趋势,从2.4%跃升至2.6%的可能性不大。

有趣的是,Claude 是唯一一个尝试直接访问劳工统计局网站进行抓取的模型,但由于它是一个 .gov 网站,我们不允许这种操作,因此失败了。

这些模型在其输出中表现出不同的推理模式。 GPT 的分析侧重于将共识预测作为未来事件的关键信号,而不是从当前数据中推断;而 Claude 的方法则展现出严谨的分析结构,采用系统性的利弊框架和定量差距分析;DeepSeekV3 的输出则明确承认数据限制并在初始方法遇到限制时进行系统性方法调整。

这些行为差异揭示了不同模型在信息收集方面有趣的模式。网络使用和令牌消耗的差异表明,模型在处理预测任务时有不同的策略,FutureBench 可以帮助我们衡量和理解这些策略。

局限性与未来方向

一个挑战是评估可能由于大量的输入令牌而变得昂贵。例如,Claude 倾向于频繁访问网页,因此会累积大量输入令牌。在一个多轮循环中,这会使输入令牌的数量迅速飙升。这增加了后续生成的成本,尽管大多数令牌最终会被缓存。

FutureBench 是一个不断发展的基准,随着我们发现新的发现和更好的模式,我们将继续将其纳入其中。我们非常乐意听取社区的反馈,以了解如何更好地获取问题、运行哪些实验以及哪些数据最值得分析。

参考文献

Singh, S., Nan, Y., Wang, A., D'souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). 排行榜幻觉。ArXiv, abs/2504.20879。

Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: AI 预测能力的动态基准。ICLR。

Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI:评估事件预测的 LLM 代理。ArXiv, abs/2407.01231。

社区

注册登录 以评论