Bot Scanner 介绍:LLM 答案的“Skyscanner”
基于我们在开发 AutoBench(创新的 AI 生成 LLM 基准测试)的经验,我们推出了 Bot Scanner,这是一个面向所有人的平台,它针对任何给定问题,利用 AI 生成现有 LLM 答案的排名列表。
您应该使用哪个 AI 模型?ChatGPT、Gemini、Claude、Llama、DeepSeek?每天都有新版本发布,虽然存在基准测试,但我们都知道单个任务的性能差异可能巨大。这让您一直存在疑问:“这是否是我特定用例的最佳答案?”
现在许多应用程序允许您并排比较 LLM 响应,但这需要您手动阅读和判断每一个。在 LLM 时代,这就像试图通过单独访问每个航空公司的网站来预订航班一样。那么,如果有一个 LLM 的“Skyscanner”呢?或者一个 AI 生成答案的“AirBnB”呢?
这就是我们构建 Bot Scanner 的原因,它是一个平台,允许用户查询多个 LLM,更重要的是,让其他 AI 模型对其响应进行排名,从而通过简单的类似聊天机器人的界面,简化识别最佳 AI 生成内容的任务。
Bot Scanner 简洁地协调了一个复杂的两步过程。首先,它接收用户的一个提示,并将其广播给用户选择的一组“响应器”LLM。其次,一旦收集到响应,它会将它们传递给另一组用户选择的“排序器”LLM。这些“评委”根据用户的提示评估初始响应的质量,并生成最终的排名列表。这让用户可以对整个评估链进行细粒度控制,从选择参赛者到任命评委。
Bot Scanner 导览
“代理时代”对新评估范式的需求
我们正处于“代理时代”的开端,AI 代理被设计为自主执行复杂的、多步骤的任务。这就提出了一个关键问题:我们如何确保这些代理不仅有能力,而且始终有效并符合我们的目标?答案在于对它们提供的 LLM 响应进行强大的实时评估。
这个新时代暗示了“专家混合”(MoE)概念的更广泛解释。我们看到的系统不是内部子网络,而是将不同的、专业化的 LLM 协调起来,像一个专家团队一样协作。想象一个市场研究代理,其中一个 LLM 擅长数据检索,另一个擅长情感分析,第三个擅长创意头脑风暴。虽然功能强大,但这种“多 LLM 代理”范式使评估变得指数级复杂。您如何为每个子任务选择合适的 LLM“专家”?
从 AutoBench 到 Bot Scanner:民主化高级评估
这项挑战是 eZecute 工作的原动力。认识到传统静态基准的局限性,我们开发了 AutoBench,一个基于“集体 LLM 作为评委”范式的高级基准测试框架,它由 AI 研究人员和企业家(如 Marco Trombetti)协作构建,并得到了领先 AI 公司(如 Translated)的支持。这种方法中,AI 模型集体评估其他 AI 的输出,克服了传统基准的静态和经常被操纵的性质,并提供了动态、可扩展的评估。这是一种旨在“ASI 就绪”的方法,即使 LLM 变得过于复杂而人类难以评估时,也能对其进行评估。
AutoBench 的洞察力直接促成了 Bot Scanner 的诞生。我们亲眼目睹了为给定任务选择最佳 LLM 是多么困难。这个过程是手动的、主观的、耗时的。所以我们问自己:如果能将 AutoBench 中复杂的、LLM 驱动的评估原则打包成一个易于访问的日常工具,那会怎么样?这就是 Bot Scanner。我们创建了一个用户友好的平台,允许用户不仅可以从多个 LLM 获取响应,最重要的是,还可以让用户定义的“评委集体”评估和排名这些响应。
Bot Scanner 的工作原理和必要性
有了 Bot Scanner,您将获得一个由您信任的 AI 模型评估并排名的答案列表,而不是一个简单的输出列表。这带来了三大好处:
- 大幅节省时间:无需再手动筛选数十个输出。
- 知情决策:根据其他 AI 评估的标准,快速识别最高质量的响应。
- 构建更好的代理:对于代理时代的开发者来说,Bot Scanner 是一个宝贵的工具,可以为代理的每个组件选择最有效的“LLM 专家”,这是这些系统变得更复杂时至关重要的一步。
需要注意的是,Bot Scanner 是一款专用工具。它不能取代像 ChatGPT 或 Gemini 这样的日常聊天机器人。当模型种类繁多且准确性和质量至关重要时,它就变得必不可少。这种深度是有代价的;一次查询可能需要数百次 LLM 调用来获取响应和评估,使其成本比标准 LLM 查询高出多达 100 倍。Bot Scanner 也不是一个基准测试系统;它为特定问题提供即时排名,而不是针对数千次交互的通用基准。
未来是持续评估的
随着 AI 模型变得越来越强大,代理系统越来越普及,对强大、动态和用户驱动的评估的需求只会增加。静态基准将继续发挥作用,但动态工具对于实际应用和优化至关重要。通过 Bot Scanner,我们的目标是为所有人——从个体研究人员到大型团队——提供一种强大而易用的方法,以驾驭这个复杂的领域,并对他们使用的 AI 做出更好的决策。