Talk Arena

对话是人们与 AI 助手互动的一种自然直观的方式。然而,大多数研究通过一组静态基准来评估大型音频模型,这些基准对于评估独立任务是有效的,但可能无法捕捉模型在真实场景中与人互动时的表现。因此,我们推出了 Talk Arena,这是一个交互式开放平台,用于通过与用户在真实场景中的互动来评估大型音频模型。我们使用 Talk Arena 的动态评估对五种大型音频模型进行了基准测试,并将这些结果与语音理解的 18 个静态基准结果进行了关联。
最近创建多模态模型的努力已经产生了能够处理语音等音频输入的大型语言模型。语音是一种低摩擦的界面,它扩展了与终端用户的社交和语音互动机会。之前的工作通过一组不相交的静态音频测试(如讽刺或幽默检测)对音频模型进行了基准测试。然而,这些静态基准缺乏真实用户互动和偏好的复杂动态。受文本大型语言模型竞技场式评估的启发,我们引入了 Talk Arena,一个用于通过成对人类偏好评估大型音频模型的开放平台。Talk Arena 有助于揭示以下见解:
- 用户最喜欢哪种大型音频模型? 用户通过自主发起的提示投票表达他们的偏好,这更好地反映了实际用户体验。
- 静态语音理解基准是否能预测交互式设置中的用户偏好? Talk Arena 揭示了音频模型主流评估方法与实际用户偏好之间的差距。
现在就在 talkarena.org 试用,您还可以在那里找到本文的交互式可视化版本。
静态评估
任务和数据集
我们从现有的音频模型整体评估集(即 AudioBench 和 AIR-Bench)中选取了所有语音理解基准。总共有 18 个不同的数据集,我们对 11 个不同的大型音频模型进行了评估。
这些数据集涵盖了广泛的任务,评估模型对说话人认知状态、说话人身份和语音内容理解的知识。它们包括幽默检测、讽刺检测、意图检测、关系分类、性别分类、年龄分类、口音分类、语音接地、语言识别、语音实体识别、语音问答和语音指令遵循。
结果分析
为确保稳健性,我们报告了使用三种不同提示变体下的模型平均性能。对于 public_sg_speech
、openhermes
和 alpaca
数据集,我们报告了 cfm 指标。对于其他任务,我们报告了宏观 F1 分数。
总的来说,像 Gemini 和 GPT4o 这样的闭源模型通常位居排行榜前列:Gemini 在 SLURP 意图分类(F1:91.4)、MELD 情感识别(F1:26.9)、CN_college_listen(F1:66.1)上表现最佳,而 GPT4o 在 MUSTARD 讽刺检测(F1:53.6)、IEMOCAP 情感识别(F1:31.5)、CallHome 关系分类(F1:59.7)和 Commonvoice 口音分类(F1:35.3)上表现最佳。
在开源模型中,Qwen2-Audio 在 SpeechQA 和性别/年龄分类任务上表现出色,而 DiVA 展示了卓越的幽默检测和语音指令遵循能力,超越了所有其他模型。它们在其他任务上也表现相对良好,展示了良好的泛化能力。NextGPT 和 PandaGPT 表现相对较差,尤其是在意图和情感识别、口音识别以及指令遵循等任务上。它们共享相似的编码器架构(ImageBind),这表明使用 ImageBind 编码音频特征存在局限性。
我们还对 Whisper 加上 Llama3-8B-Instruct 的顺序管道进行了评估。它在情感识别和语音问答等任务上表现相对良好,这意味着一些数据实例可以仅从内容推断。然而,对于每个任务,都有语音模型表现优于 whisper+llama3 管道。这表明情感、关系和讽刺等信息可以嵌入到语音线索中,并且需要超越内容的理解。
交互式评估
用户偏好
作为初步尝试,我们使用 Talk Arena 在 Prolific 上收集了总共 5000 票,用于 GPT4o、Gemini-1.5-pro、Typhoon、Qwen2-Audio 和 DiVA 之间的成对比较,这些模型都是静态评估结果中表现最好的模型。对于这十种组合中的每一种,我们从 50 多名不同的众包工人那里收集了 500 票。总共有大约 359 名不同的投票者。
与静态评估的比较
我们通过计算静态评估排名与交互式评估排名之间的 top-k Kendall Tau 距离,来比较交互式评估中的用户偏好结果与静态评估结果。
以下是一些观察结果:
- 没有任何静态基准能够完全反映交互式评估中的相同排名
- 情感识别和语言检测基准的排名与交互式评估中的排名最相似
- 性别检测和细微意图(幽默、讽刺)检测的排名与交互式评估中的排名关联性不高
这些是我们从 Prolific 研究中得出的观察结果,我们希望通过公众的投票得出更多结论。
展望
我们受到 Chatbot Arena 如何迅速加速语言模型在对话系统真实世界应用研究的启发。展望未来,我们的目标是同样将语音语言模型的发展重点放在用户需求上,而不是将创新限制在当前基准能够衡量的范围内。
将人类偏好纳入语音数据 我们目前除了投票之外不存储任何数据,但从长远来看,我们希望与社区合作,建立数据共享框架。语音数据需要特别小心,因为它固有地可以识别个人甚至训练模型模仿他们的声音。我们非常乐意 Talk Arena 的数据能够直接帮助改进开源和学术语音模型,但清晰的同意流程和谨慎的数据处理是实现这一目标的先决条件,以使其既有用又符合道德。
管理自由形式的对话动态 语音对话的流畅性与文本聊天不同——它们更具动态性,回合制也不那么严格。这些是语音对用户具有吸引力的原因,但它们对竞技场式评估提出了挑战。随着更多对话式语音系统的发布,我们正在研究如何有效评估这些自然的语音交互。
开发稳健的静态基准 虽然用户的交互式反馈非常宝贵,但我们也认识到它对于模型开发人员来说往往太慢,无法用于衡量中间进展。通过我们从付费参与者那里获得的定性见解,以及查看与公开评分的一般关联,我们希望 Talk Arena 的见解能够用于设计与用户偏好更好地对齐的静态评估,以提供更快速、更廉价的反馈。
合作
我们欢迎通过多种方式进行合作!如果您有兴趣为本项目做出贡献,请随时通过以下方式联系我们:ellamzli@stanford.edu, held@stanford.edu, diyiy@cs.stanford.edu