推出希伯来语大模型开放排行榜!
本项目旨在解决希伯来语自然语言处理领域亟待推进的关键需求。鉴于希伯来语被视为一种低资源语言,现有的大模型排行榜往往缺乏能够准确反映其独特特征的基准。今天,我们很高兴地推出一项开创性工作,以改变这一现状——我们新的开放大模型排行榜,专为评估和提升希伯来语语言模型而设计。
希伯来语是一种形态丰富的语言,拥有一套复杂的词根和模式系统。单词由词根构成,通过添加前缀、后缀和中缀来修改含义、时态或构成复数(以及其他功能)。这种复杂性可能导致从单个词根派生出多种有效词形,使得为形态更简单的语言设计的传统分词策略效率低下。因此,现有语言模型可能难以准确处理和理解希伯来语的细微差别,这突显了对能够适应这些独特语言特性的基准的需求。
因此,希伯来语的大模型研究需要专门的基准,以具体适应该语言的细微差别和语言特性。我们的排行榜旨在通过提供针对语言特定任务的强大评估指标,并促进希伯来语生成式语言模型的开放社区驱动改进,来填补这一空白。我们相信这项倡议将成为研究人员和开发者分享、比较和改进希伯来语大模型的平台。
排行榜指标与任务
我们开发了四个关键数据集,每个数据集都旨在测试语言模型对希伯来语的理解和生成能力,而不论其在其他语言中的表现如何。这些基准使用少量提示格式来评估模型,确保它们即使在有限的语境下也能正确适应和响应。
以下是排行榜中包含的每个基准的摘要。有关每个数据集、评分系统、提示构建的更全面细分,请访问我们排行榜的 About
选项卡。
希伯来语问答:此任务评估模型理解和处理希伯来语信息的能力,侧重于理解以及根据语境准确检索答案。它通过直接问答形式检查模型对希伯来语语法和语义的掌握程度。
- 来源:HeQ 数据集的测试子集。
情感准确性:此基准测试模型检测和解释希伯来语文本情感的能力。它评估模型根据语言线索准确将陈述分类为积极、消极或中性的能力。
- 来源:希伯来语情感 - 希伯来语情感分析数据集。
Winograd 图式挑战:该任务旨在衡量模型对希伯来语中代词消解和语境歧义的理解。它测试模型运用逻辑推理和一般世界知识在复杂句子中正确消除代词歧义的能力。
翻译:此任务评估模型在英语和希伯来语之间翻译的熟练程度。它评估语言准确性、流畅性以及在语言间保留含义的能力,突出模型在双语翻译任务中的能力。
- 来源:NeuLabs-TedTalks 对齐翻译语料库。
技术设置
该排行榜灵感来源于 开放大模型排行榜,并使用 演示排行榜模板。提交的模型会自动通过 HuggingFace 的 推理端点 进行部署,并通过 lighteval 库管理的 API 请求进行评估。实现过程非常简单,主要任务是设置环境;其余代码运行顺利。
与我们互动
我们邀请研究人员、开发者和爱好者参与这项倡议。无论您是希望提交模型进行评估,还是参与讨论改进希伯来语语言技术,您的贡献都至关重要。请访问排行榜上的提交页面,了解如何提交模型进行评估的指南,或加入排行榜 HF 空间上的讨论页面。
这个新排行榜不仅仅是一个基准测试工具;我们希望它能鼓励以色列科技界认识并解决希伯来语语言技术研究中的空白。通过提供详细、具体的评估,我们旨在促进语言模型的发展,这些模型不仅在语言上具有多样性,而且在文化上也是准确的,为尊重希伯来语丰富性的创新铺平道路。加入我们,踏上这段激动人心的旅程,共同重塑语言建模的格局!
赞助
该排行榜由以色列国防部研发司 / 以色列国家希伯来语和阿拉伯语自然语言处理项目与DICTA: 文本分析以色列中心和Webiks合作共同赞助,这证明了对推进希伯来语语言技术的承诺。我们衷心感谢巴伊兰大学的 Reut Tsarfaty 教授提供的科学咨询和指导。