他们看到我们所见的了吗?
使用 EmoNet(一套开放工具和资源)构建情感智能 AI。
作者:
LAION e.V., Christoph Schuhmann*, Robert Kaczmarczyk*, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Desmond Grealy, Huu Nguyen, Cahya Wirawan, Krishna Kalyan, Kristian Kersting, Sören Auer;以及 Jayaraman Mahalingam (Intel Corporation)
当今科技领域一个令人兴奋的前沿是,人工智能正在寻求在更深层次上真正理解并与人类互动。尽管 AI 在语言处理和复杂问题解决方面取得了显著进展,但一个关键维度尚未完全实现:真正的情商。
我们的 AI 系统能否察觉到皱眉眼中的微妙喜悦、声音中轻微的焦虑颤抖,或者我们日常互动中复杂的情感混合?我们相信这不仅是一个引人入胜的学术追求,更是未来人机协作的根本必要性。
今天,我们很自豪地发布 EmoNet——一套新的、开放的、免费的模型和工具,旨在支持情感智能 AI 这一新兴领域的全球研究和创新。我们的贡献是多方面的,解决了当前研究中的关键空白,并为全球 AI 社区提供了强大的新工具。
感谢我们的合作伙伴英特尔。LAION 和英特尔多年来一直致力于促进共情、周到和富有成效的人机交互。
我们对共情计算的贡献
1. EMONET-FACE 基准
一个新颖的、由专家标注的用于精细面部情感估计的基准,具有全面的 40 类情感分类法和大规模、人口多样化的合成图像数据集(EMONET-FACE BIG、BINARY 和 HQ)。
📊 数据集:EMONET-FACE
2. EMONET-VOICE 基准
一个同样精细的、经过专家验证的语音情感检测基准。它基于我们的 40 类分类法,并利用最先进的合成语音生成技术来保护隐私和增加多样性。它包含 4,692 个高一致性音频样本。
📊 数据集:EMONET-Voice
3. EMPATHIC INSIGHT-FACE 模型
一个用于面部情感估计的最先进模型,在我们的 EMONET-FACE 套件上训练,其性能超越了 Gemini 2.5 Pro 和 Hume AI 等领先模型和专有 API。
此图突出了 EmoNet Empathic Insights 模型与其他模型在面部情感识别相关性方面的优势。条形图的高度表示针对每个模型的所有情感计算出的这些情感 Spearman Rho 值的平均值。误差条表示这些平均值的自举 95% 置信区间(N=1000 次自举)。模型标注者组,包括我们训练的模型(Empathic-Insight-Face)、具有多样本或零样本提示的 VLM、专有模型(HumeFace)和随机基线,通过图例中详述的模式进行区分。
4. EMPATHIC INSIGHT-VOICE 模型
一个用于语音情感估计的最先进模型,为声乐情感线索的细致理解设定了新的基准,同样在我们的 EMONET-VOICE 基准上超越了现有系统。
5. BUD-E Whisper (更好地理解情感 Whisper)
一套经过微调的 Whisper 模型,用于高级情感语音字幕,超越单纯的转录,能够描述情感语调、声音爆发和说话者特质。
6. LAION 的 Got Talent 数据集
一个广泛的合成配音数据集,构成了 EMONET-VOICE 的基础,包含超过 5,000 小时的语音,涵盖 11 种合成语音、40 种情感和 4 种语言。该数据集的累计播放时间超过了 2021 年至 2024 年美国影院所有电影的累计播放时间,由此可见其规模之大。
📊 数据集
EMONET-FACE & EMONET-VOICE 简介:一个新的基础
为了应对这些挑战,我们开发了 EMONET 套件。其核心是一个新颖的 40 类情感分类法,该分类法经过对《情感手册》的广泛分析精心推导,并通过与心理学家的咨询进行了完善。该分类法远超基本情绪,涵盖了丰富多样的积极和消极情感状态、认知状态(例如,专注、困惑、怀疑)、身体状态(例如,疼痛、疲劳、醉酒)以及社会情感(例如,尴尬、羞耻、骄傲、戏弄)。这种细粒度对于构建能够理解人类情感生活更细微之处的 AI 至关重要。
EMONET-FACE
EMONET-FACE 为视觉情感理解提供了丰富的资源
- EMONET-FACE BIG(超过 203,000 张合成图像)提供了用于预训练模型的庞大数据集。
- EMONET-FACE BINARY(约 20,000 张图像)专为微调设计,并包含来自人类专家的超过 62,000 个二进制(存在/不存在)情感标注。这些标注经过严格的多阶段处理,需要肯定标签的三重肯定一致,并需要对比批次以确保高质量的真阴性。
- EMONET-FACE HQ(2,500 张图像)作为我们的黄金标准评估基准。每张图像都由多位心理学专家在 40 个情感类别中以 0-7 的连续强度等级进行精心评分,共产生了 10,000 个专家标注。
合成图像使用最先进的文本到图像模型生成,并使用明确的提示,以确保不同人口统计学(种族、年龄和性别)的代表性和清晰的全脸表情。这种方法不仅可以实现可控的多样性,还可以避免使用真实个人图像所带来的伦理问题。
EMONET-VOICE
EMONET-VOICE 以同样的严谨性处理听觉领域
- EMONET-VOICE 从 LAION 的 Got Talent 中精选了 4,692 个高一致性音频样本。
- 每个片段都模拟演员描绘旨在唤起特定情感的场景。
- 至关重要的是,每个片段都经过拥有心理学学位的专家进行严格验证。他们根据严格的三位标注者共识协议分配了感知强度标签(不存在、轻微存在、强烈存在),重点是估计情感的存在和强度,而不是假设一个单一的明确标签。
这种隐私保护方法允许包含现有数据集中通常不存在的敏感情感状态。
为什么语音和面部情感很重要:通用配音演员的愿景
有效的沟通超越了单纯的文字。它与丰富的情感交织在一起,通过我们面部表情的微妙变化和声音的复杂细微之处来传达。捕捉这些表情使 AI 助手变得更具共情心、更吸引人、更有支持性;这些特质对于教育、心理健康、陪伴等领域的变革性应用至关重要。
我们设想未来多模态基础模型将演变为具有复杂音频输入/音频输出能力的“全能模型”。很快,Hugging Face 等平台上的每个新基础模型都将能够像罗伯特·德尼罗或斯嘉丽·约翰逊一样进行配音。这些 AI 系统将像世界级配音演员一样运作,不仅可以通过文本提示,还可以通过语音提示,以适应任何角色。想象一下,一个 AI 可以化身为一个善解人意的教育者,适应学生的困惑;一个扣人心弦的故事讲述者,吸引观众;或者一个知识渊博的研究助理,清晰且适当地解释复杂的概念。这种无缝且鼓舞人心的人机交互水平是我们的最终目标。
改进基准的必要性:观察和倾听细微之处
迈向情感智能 AI 的旅程始于数据。现有的情感识别数据集虽然有价值,但通常存在显著局限性。面部情感数据集可能依赖于狭窄范围的“基本”情感,使用有遮挡或光照不佳的图像,或者缺乏人口统计多样性,从而导致模型偏差,在不同人群中表现不佳。同样,语音情感数据集可能受限于粗糙的情感分类法、与真实用户数据相关的隐私问题,或者过度依赖未能捕捉自发情感表达细微之处的表演。
构建情绪理论(TCE)是一种重要的心理学框架,它认为情绪并非我们简单“识别”的普遍、预先设定的实体。相反,情绪是由我们的大脑根据内感受信号(如效价——愉悦/不愉悦,和唤醒——激活/去激活)、习得概念和情境信息组合构建而成的。这意味着“喜悦”或“悲伤”没有单一的、明确的面部表情或声音语调是普遍且明确地显示的。相反,情感表达是一种复杂、动态且通常模棱两可的信号。
这种理解强调了情感估计而非简单识别的必要性。我们需要人工智能能够评估各种情感存在的可能性和强度,而不是强行给复杂的个体状态贴上单一标签。
我们的分类法
EMPATHIC INSIGHT 模型:实现新的最先进性能
这些基准的强大之处通过我们的 EMPATHIC INSIGHT 模型得以体现,这些模型展示了我们的数据集和分类法所释放的能力。
- EMPATHIC INSIGHT-FACE 在 EMONET-FACE HQ 上达到了人类专家级别的性能,超越了 Gemini 2.5 Pro 和专有 API 等模型。(有关模型架构和训练的更多技术细节可在我们的附带论文/技术报告中找到)。
- EMPATHIC INSIGHT-VOICE 在 LAION 的 Got Talent 和 EMONET-VOICE 上训练,同样为细致的语音情感估计设定了新的 SOTA。(有关该模型的更多技术细节也可获取)。这些模型采用许可式许可(模型为知识共享许可,代码为 Apache 2.0),证明通过专注的数据集构建和精心建模,人工智能确实能够以接近人类感知的细致程度“看”和“听”情感。
示例
BUD-E Whisper 简介:超越转录的情感理解
要真正解锁语音中的情感内容,仅靠转录是不够的。这促使我们开发了 BUD-E Whisper,一套经过微调的 OpenAI Whisper 模型变体。BUD-E Whisper 专门适用于高级情感字幕。这些模型不仅仅是将语音转换为文本;它们还生成结构化的描述,包括:
- 情感语调:识别我们 40 类分类法中的感知情感。
- 声音爆发:识别非词汇表达,如笑声、叹息、喘息等。
- 说话者特质:推断年龄、性别乃至说话风格等特征。
BUD-E Whisper 的训练是一个迭代完善的过程。我们使用了多样化的数据集,包括 LAION 的 Got Talent 配音数据和大约 5,000 小时的公共视频博客、在线日记和电影对话音频,并使用语音活动检测 (VAD) 来分离语音片段。然后,我们使用 Gemini Flash 2.0 根据我们的 40 类情感分类法对这些样本进行标注。
最初的实验尝试直接从 Whisper 的架构回归到标量情感强度值(0-5 级),但事实证明具有挑战性,因为 Whisper 的自回归性质并不固有地适合稳定的数值输出。然后我们转向了字幕方法。首先,我们使用程序生成的情感摘要——描述情感、强度和说话者特质的模板化句子。尽管有所改进,但这些模板导致了句法可预测性和过拟合。突破性进展发生在我们使用 LLM 来转述这些程序化字幕时。这引入了关键的句法变异性,同时保持了语义一致性。在这些多样化、转述的字幕上进行训练,使 BUD-E Whisper 能够生成流畅、上下文敏感且高度可解释的情感描述。
结果是一个强大的系统,能够识别和描述语音中细微的情感信号,代表着向更具情感意识的语音助手迈出了重要一步。BUD-E Whisper 对于为音频生成丰富字幕、为训练文本到语音和基础模型准备数据特别有用。
合成数据的力量:迈向更道德和多样化的数据
我们倡议的基石是合成数据的战略性使用。这种方法提供了几个关键优势:
- 隐私:它绕过了收集和标注真实人类情感表达(特别是敏感状态)所带来的伦理复杂性和隐私风险。尽管我们无法完全保证模型不会泄露任何隐私。
- 多样性和控制:我们可以通过程序确保数据集中人口统计学上的多样性,控制面部图像中的年龄、性别和种族,以及语音中的声音特征。这对于构建更公平、更少偏见的 AI 系统至关重要。
- 规模和范围:合成生成使我们能够创建大规模且情感广度的数据集,而这在人类表演或真实世界数据中将成本高昂或在逻辑上不可能实现。
未来:情感推理,以及通用配音演员的黎明
准确估计情感是关键的第一步。下一个前沿是使 AI 系统能够根据上下文对这些情感进行推理。我们坚信,在不久的将来,基础模型将是多模态的,不仅能原生输入文本,还能原生输入和输出音频。这些将是我们所设想的“通用配音演员”——能够理解、 воплотить 和表达各种人类角色和情感。
想象一下,提示 AI:“像一位关怀备至的护士,安慰一位焦急的病人”,或者“像一位有点暴躁但可爱的爷爷,讲述这个故事”。LAION 的 Got Talent 和 EMONET-VOICE 正在为这些能力铺平道路。此外,我们 EMONET 套件中丰富、多标签、强度感知注释提供了训练高级推理模型(如 OpenAI 的 O 系列或 DeepSeek 的 R1)所需的数据,以理解情感状态的含义,并根据观察到的心理模型线索预测人类未来的行为或结果,从而超越简单的识别,实现真正的理解。
为了真正实现该领域的民主化,LAION 在英特尔的支持下,致力于使用我们的 EMPATHIC INSIGHT-VOICE 模型标注数百万个许可宽松的音频样本。这将创建一个无与伦比的公共资源,推动自监督和多模态情感学习的进一步研究和开发。
展望未来,我们的下一个宏伟目标是创建一个大规模、许可宽松的多语言语音数据集,超过 500,000 小时。这项艰巨的任务由 Intel® Tiber AI Cloud 提供支持,我们正在利用其高性能的 192 核 CPU 实例来处理和管理这一无与伦比的资源。这将进一步民主化和加速研究,为下一代情感感知 AI 铺平道路。
尝试并合作:加入我们的旅程
情感智能 AI 的发展是一项协作努力。我们邀请全球 AI 社区——研究人员、开发人员、伦理学家和爱好者——探索我们的工作,并为这个激动人心的领域做出贡献。
结论
完整博文请见此处。
阅读论文:
探索数据集
🤖 试验模型
- BUD-E Whisper
- 共情洞察面部模型 小 | 大
- 共情洞察语音模型 小 | 大
与我们的社区互动
致谢
这项雄心勃勃的计划离不开我们合作伙伴的鼎力支持。我们衷心感谢达姆施塔特工业大学、DFKI、Hessian AI、TIB-莱布尼茨科学技术信息中心、汉诺威大学、NOUS Research、Camb AI,尤其是英特尔,感谢他们不可或缺的支持、资源以及在推进开放和负责任的 AI 研究方面的共同愿景。他们的承诺对我们创建不仅理解我们而且真正关心我们的 AI 的旅程至关重要。