农发基金人工智能基准(花园 V1)

社区文章 发布于 2025 年 6 月 30 日

评估农发基金特定环境下的人工智能模型能力

农发基金信息通信技术人工智能团队,2025 年 6 月 30 日

摘要

本文概述了国际农业发展基金 (IFAD) 作为结构化人工智能基准测试计划的一部分,进行的人工智能模型评估的方法和结果。随着人工智能模型日益融入数字工具和运营系统,选择能够可靠运行并与实际用例保持一致的模型,对于旨在以有意义和负责任的方式应用人工智能的组织来说,正变得一项关键任务。农发基金人工智能基准(代号 Garden V1)为组织内的人工智能模型评估提供了清晰和标准化的基准,涵盖了与农发基金环境相关的 30 多项测试和 30 多个模型。该基准侧重于四种类型的任务——选择题、语言翻译、信息检索和信息排序——并包括从专业人工智能服务提供商到通用开源产品等多种模型的结果。通过农发基金人工智能基准,农发基金能够就功能集成、技术开发、组织运营和进一步研究的模型选择和部署做出更明智的决策。

图 1:花园 V1 测试的视觉摘要 image/jpeg

Garden V1 是农发基金改进人工智能负责任和有效利用的首次尝试,但并非最终尝试。鉴于 Garden V1 在内部的成功采用以及业界同行的积极早期反馈,我们正在分享我们的实践经验和经验教训,以帮助指导从事类似项目的其他人。此外,我们还在分享我们的工作,以邀请社区的建设性反馈,以帮助我们塑造 Garden V2。

引言

人工智能模型,包括大型语言模型 (LLM),已成为各种专业和通用任务的强大工具,从翻译和摘要到问答和推理。随着这些模型的普及,为特定任务选择最合适的模型变得越来越具有挑战性,尤其是当组织需求偏离通用基准时。随着农发基金继续在全球范围内嵌入和主流化以人工智能为中心的工作流程,涉及多语言文档、领域特定知识和复杂的组织数据,通用基准可能无法与农发基金相关的特定上下文用例完全对齐。

为了弥补这一差距,我们引入了农发基金人工智能基准——代号 Garden V1——作为一个可复现的、以农发基金为中心的评估框架,它衡量人工智能模型在四种类型任务上的能力:选择题语言翻译信息检索信息排序。每个任务都模拟了农发基金特定的信息处理场景,从表格和图像上的多项选择题,到使用针对组织环境定制的文档和样本进行的多语言翻译和长上下文检索。

截至 2025 年 5 月 9 日,Garden V1 包含 32 个基于任务的测试,每个测试包含 20 个问题,总计 640 个问题。截至 2025 年 5 月 9 日,Garden V1 也已应用于 33 种不同的人工智能模型和服务。虽然并非所有测试都适用于所有模型,但迄今为止模型测试覆盖的广度已为农发基金在组织内采用、开发和部署人工智能技术方面提供了有价值且可操作的信息。

背景和动机

近年来,人工智能模型已成为组织数字解决方案和企业系统组合中的重要技术,在文本理解、语言翻译、信息检索等许多操作任务中提供了强大的功能。为了评估和比较这些模型,已经开发了几个通用基准,例如:

  • MMLU,包含 57 个学科的 15,000 多个多项选择题。
  • BIG-bench,旨在测试语言模型在各种任务中的能力,重点关注推理和问题解决。
  • HellaSwag,侧重于常识推理,旨在评估模型选择给定文本最合理延续的能力。
  • MTEB,一个用于文本嵌入的基准,评估嵌入特定任务,例如信息检索。

尽管这些及其他类似的基准提供了有关人工智能模型通用能力的宝贵信息,但它们往往未能评估模型在特定组织环境中的表现。例如,农发基金的独特要求——例如在英语和其他三种官方语言(阿拉伯语、法语、西班牙语)之间翻译文档、从大量技术报告中检索特定信息以及根据多个主题的相关性对信息进行排名——这些通用基准无法充分满足。

此外,大量的基准测试和对流行模型结果的选择性报告可能会导致更相关的基准结果被忽视,特别是如果讨论只关注积极结果和超越先前记录。例如,GPT-4 的发布宣布其在研究生入学考试 (GRE) 语文测试中取得了 99% 的优异成绩。然而,对于农发基金的语境,更相关的分数是 AP 美国历史(89%-100%)与 AP 世界历史(65%-87%)之间的显著差异,而 AP 世界历史与农发基金的全球业务更相关。

此外,最近的研究强调了现有基准的局限性,表明许多基准所基于的分布假设可能与实际应用不符,从而可能导致模型性能的误报。与此同时,现代人工智能模型的性能迅速提升导致了饱和效应,因为模型经常最大化基准分数,从而削弱了这些测试区分领先系统增量改进的能力。

认识到这些现实及其相关的挑战,迫切需要与组织目标相符的领域特定评估框架。对于农发基金而言,这导致了 Garden V1 的开发,作为一个反映组织运营需求,确保所选人工智能模型能够有效支持组织工作的内部人工智能模型基准。

测试数据集和任务定义

我们根据农发基金内部业务的实际需求构建了一个测试数据集,确保与现实世界的业务场景保持一致。我们根据不同的应用场景设计了四类测试:选择题、语言翻译、信息检索和信息排序。每个类别由多个测试任务组成,这些任务在执行方式上具有相似性(即给予人工智能模型的任务)。对于每个测试任务,我们设计了相应的问题和答案数据集,如表 1 所示。

表 1:测试数据集摘要

类别任务模式格式指标问题
选择题内在知识文本多项选择正确选项20
选择题阅读理解文本多项选择正确选项20
选择题数值推理文本多项选择正确选项20
选择题逻辑推理文本多项选择正确选项20
选择题表格解释 (CSV)文本多项选择正确选项20
选择题表格解释 (MD)文本多项选择正确选项20
选择题表格解释 (JSON)文本多项选择正确选项20
选择题表格解释 (HTML)文本多项选择正确选项20
选择题表格解释 (XML)文本多项选择正确选项20
选择题表格解释 (图像)图像多项选择正确选项20
选择题图表解释图像多项选择正确选项20
选择题图表解释图像多项选择正确选项20
选择题图像解释图像多项选择正确选项20
选择题地理信息系统解释图像多项选择正确选项20
选择题地图解释图像多项选择正确选项20
选择题卫星图像解释图像多项选择正确选项20
选择题卫星图像比较图像多项选择正确选项20
语言翻译英语到法语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译英语到西班牙语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译英语到阿拉伯语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译英语到葡萄牙语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译英语到中文(简体)文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译法语到英语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译西班牙语到英语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译阿拉伯语到英语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译葡萄牙语到英语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
语言翻译中文(简体)到英语文本翻译文本BLEU, ROUGE, METEOR, BGE-M320
信息检索大海捞针 (16K)文本语义正确答案响应匹配20
信息检索大海捞针 (32K)文本语义正确答案响应匹配20
信息检索大海捞针 (64K)文本语义正确答案响应匹配20
信息检索大海捞针 (128K)文本语义正确答案响应匹配20
信息排序分块选择文本分块顺序NDCG20

选择题

与通用问答任务相比,农发基金使用人工智能模型通常涉及领域特定问题,这些问题要求模型理解用户提供的文本、表格和图像之间的复杂关系,以提供明确的答案。此类问题不仅需要自然语言理解,还需要解析以各种格式(例如 HTML、Markdown、XML、JSON)存储的文本信息以及各种类型的图像(例如表格图像、统计图表、地理地图)的能力。为了评估人工智能模型在这些场景中的性能,我们设计了“选择题”类测试,以评估给定模型对复杂数据和专业查询的理解能力。这些测试分为 8 个图像相关测试、5 个表格相关测试和 4 个文本相关测试,每个测试包含 20 道多项选择题,只有一个正确答案。对于这些测试,人工智能模型必须根据以特定格式(例如表格、图像或文本)呈现的数据回答每个问题。

测试示例:选择题

问题:农发基金的贷款条件是根据《农发基金融资政策和标准》和《农发基金融资条件框架》确定的。贷款条件主要基于什么?

A. 国家农业产出和农村发展需求

B. 国家经济脆弱性水平和通货膨胀率

C. 国家人均国民总收入 (GNI) 和信用评估

D. 国家人类发展指数 (HDI) 和外债负担

语言翻译

英语、阿拉伯语、法语和西班牙语是农发基金的四种官方语言,它们经常出现在各种组织文件和沟通渠道中。除了这四种官方语言,我们还在 Garden V1 中包含了葡萄牙语和中文,以扩大测试范围。特别是葡萄牙语,在农发基金在葡语国家的工作中很常见。在农发基金的日常运营中,出于官方和非官方目的,经常需要进行多语言翻译。通常,多种语言会出现在同一上下文中,例如在详细冗长的项目报告中。与通用机器翻译不同,农发基金的翻译通常涉及专业术语、复杂表达和文化细微差别的知识。为了评估人工智能模型在语言翻译场景中的性能,我们设计了“语言翻译”类别测试,包括 10 个测试任务,代表语言对之间的双向翻译。每个任务由 20 对数据组成,每对数据包含两种支持语言(始终是英语与其他语言之间)的地面实况文本翻译。对于这些测试,人工智能模型必须将每个文本片段从源语言翻译成目标语言,并且是双向翻译。

测试示例:语言翻译

英文:许多生活在贫困中的农村人口面临巨大的经济、社会和环境挑战——从气候变化和粮食不安全,到不平等、冲突和资源匮乏……

西班牙文:许多生活在贫困中的农村人口面临巨大的经济、社会和环境挑战,从气候变化和粮食不安全,到不平等、冲突和资源匮乏……

信息检索

农发基金制作了大量报告和文件,其中许多篇幅冗长,经常超过数百乃至数千页。这些报告和文件经过多轮起草和审查,因此常见的操作需求是在给定报告中查找特定细节和更改。因此,评估不同模型在不同文本长度下检索信息的表现至关重要,尤其是在人工智能模型集成到文档审查和分析流程中时。在“信息检索”测试类别中,我们设计了四个“大海捞针”测试任务,其上下文长度按输入标记计数分别为 16K、32K、64K 和 128K。在每个任务中,提供相应上下文长度的文档作为检索源,模型必须参考该检索源以找到回答每个问题所需的特定信息。对于这些测试,正确答案通过“LLMs-as-judges”方法确定,其中一个额外的大语言模型(在本例中为 GPT-4o)扮演答案评估器的角色,确定所提供的答案是否与真实答案语义相似。

测试示例:信息检索

来源:研究系列第 28 期 – 了解采用决策的动态及其对贫困的影响:以乌干达改良玉米种子为例

问题:2009 年乌干达国家小组调查中,共调查了多少户家庭?

2,975

信息排序

在涉及检索增强生成 (RAG) 的系统和应用中,不仅要检索相关信息,还要以逻辑连贯、语义清晰的顺序呈现信息,这至关重要。这在处理多段响应或综合来自多个来源的信息时尤为重要,这在农发基金以文档为中心的工作流程中经常出现。为了评估人工智能模型在 RAG 上下文中执行适当信息排序的能力,我们设计了一个单一的“信息排序”测试任务,重点关注模型向量化过程和语义相似性映射的相关性。在测试中,20 个问题测试集中的每个测试集都附带四个包含不同程度相关信息(可帮助回答问题)的参考文本块。目标是评估模型是否能理解信息的逻辑流程,并根据内容连贯性和语义连续性重建最合适的顺序。对于这些测试,人工智能模型必须首先对给定块和问题进行向量化;然后,计算每个块与问题本身的余弦相似度分数,以确定块的相关性顺序。

测试示例:信息排序

块 1 (C1):农林复合生态和生物物理影响已得到广泛研究和报告,其环境效益包括土壤改良、生物多样性增强、空气和水质改善,以及在气候适应、缓解和生物多样性方面的明显效益……

块 2 (C2):尽管农林复合具有潜力,但其在实施过程中仍面临持续挑战。这些挑战包括建立有效的激励机制、提供足够的技术支持、建立融资机制、确保长期经济可持续性以及改善整体有利环境……

块 3 (C3):小林地、农林复合和红树林倡议促进了可持续的自然资源管理,包括土地和水资源管理实践。红树林恢复倡议在 ASAP 项目中具有最高的每公顷碳固存潜力,在 20 年内每年每公顷固存 8.4 吨二氧化碳……

块 4 (C4):常绿农业实践现已成为应对气候变化的解决方案之一,并且在该地区多个国家呈上升趋势。保护性农业,包括农林复合、特种作物和永久性耕作系统,通过改善作物和动物生产以及与市场机会相关的生产,促进粮食自给、减贫和增值生产……

问题:农林复合如何促进环境可持续性和气候韧性?

C1、C3、C2、C4

模型列表和评估指标

我们评估了广泛选择的人工智能模型——包括开源模型、专有模型和专业服务——对我们的测试数据集进行了评估。这些模型涵盖了广泛定义为生成、推理和嵌入等不同能力类型。这些模型还根据其输入和输出模式(例如文本、图像和向量)进行进一步分类。所选模型列表(可能与农发基金相关且适用)汇总于表 2

表 2:所选模型摘要

模型组织类型输入输出
GPT-4.1OpenAI生成文本,图像文本
GPT-4.1-miniOpenAI生成文本,图像文本
GPT-4.1-nanoOpenAI生成文本,图像文本
GPT-4oOpenAI生成文本,图像文本
GPT-4o-miniOpenAI生成文本,图像文本
o4-miniOpenAI推理文本,图像文本
o3OpenAI推理文本,图像文本
o3-miniOpenAI推理文本文本
o1OpenAI推理文本,图像文本
Llama-4-Maverick-17B-128E-InstructMeta生成文本,图像文本
Llama-4-Scout-17B-16E-InstructMeta生成文本,图像文本
Llama-3.3-70B-InstructMeta生成文本文本
Llama-3.1-70B-InstructMeta生成文本文本
QwQ-32B阿里巴巴推理文本文本
Qwen2.5-72B-Instruct阿里巴巴生成文本文本
Qwen2.5-32B-Instruct阿里巴巴生成文本文本
DeepSeek-V3-0324深度求索生成文本文本
DeepSeek-R1-Distill-Llama-70B深度求索推理文本文本
DeepSeek-R1-Distill-Qwen-32B深度求索推理文本文本
phi-4微软生成文本文本
Phi-3.5-MoE-instruct微软生成文本文本
Phi-3-medium-128k-instruct微软生成文本文本
gemma-3-27b-itGoogle生成文本,图像文本
Mistral-Nemo-Instruct-2407Mistral AI生成文本文本
Falcon3-10B-Instruct技术创新学院生成文本文本
EuroLLM-9B-InstructUTTER 项目(地平线欧洲)生成文本文本
Azure 文本翻译微软专业服务文本文本
DeepL 翻译DeepL专业服务文本文本
文本嵌入-3-大OpenAI嵌入文本向量
文本嵌入-3-小OpenAI嵌入文本向量
文本嵌入-ada-002OpenAI嵌入文本向量
bge-m3北京智源人工智能研究院嵌入文本向量
mxbai-embed-large-v1Mixedbread嵌入文本向量

特别是对于生成模型,我们针对每个模型进行了多次测试迭代,使用了不同组合的温度top-p参数值。由于这些参数显著影响生成模型的行为,因此探索更广泛参数空间中的模型测试分数至关重要。

选择题

在选择题测试中,人工智能模型的任务是阅读每个问题并从四个可能的选项中选择正确答案。评分是二元的,正确答案得 1 分,不正确答案得 0 分。此测试的度量标准是正确答案数占问题总数的百分比,即正确选择百分比。

提示模板:选择题

系统提示

您的任务是回答有关文本的多项选择题。阅读问题并回答问题。请以以下 JSON 格式提供答案:{"answer": "字母"}。例如:{"answer" : "C"}

用户提示

问题:{问题}

A. {选项_a}

B. {选项_b}

C. {选项_c}

D. {选项_d}

语言翻译

在语言翻译测试中,人工智能模型的任务是将给定的源文本翻译成特定的目标语言。然后将生成的翻译与人工生成的参考文本进行比较,以评估翻译质量。为了确保客观性、标准化评分并方便比较,采用了几种成熟的机器翻译指标,包括BLEUROUGEMETEOR。此外,还根据BGE-M3嵌入模型应用了句子相似度评分,因为该模型支持多种语言且上下文长度相对较大。虽然将 BGE-M3 用作机器翻译指标可能不合常规,但我们选择使用它作为一种更好地理解翻译语义接近度的方式,而不是简单地依赖传统的 N-gram 匹配。对于所有指标,翻译分数范围为 0 到 1,分数越高表示翻译匹配度越高。

提示模板:语言翻译

系统提示

您的任务是将以下文本从 {源语言} 翻译成 {目标语言}。请仅提供翻译内容。

用户提示

文本:{文本}

信息检索

在信息检索测试中,也称为“大海捞针”测试,人工智能模型的任务是在长文本汇编(即“干草堆”)中找到并提取特定信息(即“针”)。由于上下文长度可能会影响检索的精度,我们提供了 4 个测试任务,每个任务包含 20 个问题和一个具有不同上下文长度(按输入标记计数:16K、32K、64K 和 128K)的参考文档。评分是二元的,正确答案得 1 分,不正确答案得 0 分。由于人工智能模型可能会给出不同版本的正确答案(例如,“100%”或“百分之百”),因此精确的字符串匹配可能不适用于评估过程。因此,需要一个 LLM 辅助验证步骤来确定模型提供的答案是否与预期答案语义等效。LLM 辅助验证完成后,此测试的评估指标就是正确响应的数量与问题总数的比率,即响应匹配百分比。

提示模板:信息检索

系统提示(检索)

您的任务是根据给定文档回答问题。您必须只用一个词或一个数字来提供答案。请注意此回答要求。

用户提示(检索)

文档:{文档}

问题:{问题}

系统提示(验证)

您的任务是验证两个答案:第一个答案是真实答案,第二个答案是提供的答案。比较这两个字符串以回答给定问题,并确定提供的答案是否与真实答案传达相同含义。侧重于语义等效性,而非精确措辞。提供的答案必须清晰、简洁,且仅关注相关信息。您的回复必须采用以下格式

{"match": True} 如果提供的答案传达与真实答案相同含义,即使措辞不同。

{"match": False} 如果提供的答案含义不同或包含不相关内容。

用户提示(验证)

问题:{问题}

真实答案:{真实答案}

提供的答案:{提供的答案}

信息排序

在信息排序测试中,人工智能模型的任务是根据给定问题的重要性,协助对一组文本块进行排序。为了确定每个文本块的重要性,我们使用人工智能模型计算每个文本块的向量嵌入以及给定问题的向量嵌入。然后,我们计算每个文本块与给定问题之间的余弦相似度分数,并根据余弦相似度分数降序排列文本块。输出的评分然后使用归一化折现累积增益 (NDCG) 指标进行计算,该指标奖励将更相关的文本块(即具有更高余弦相似度分数的文本块)放置在预期文本块排名顶部。NDCG 分数范围从 0 到 1,其中 1 表示完美顺序匹配,即所有文本块都处于其正确的排名。

结果

所有模型的完整测试结果都在农发基金内部以交互式数据仪表板的形式提供。以下是一些代表性截图供参考

图 2a-2d:Garden V1 交互式数据仪表板

image/png image/png image/png image/png

尽管完整的测试结果、交互式数据仪表板和综合分析目前不计划发布,但我们可以分享 Garden V1 中的一些有趣观察结果:

  • 选择题。在所有模型中,温度和 top-p 超参数值的不同排列对测试结果没有显著影响,通常只有大约 +/- 2 个百分点的差异。
  • 阅读理解。所有模型的测试分数都始终很高,平均达到 98%,这证实了当模型被提供了足够的相关信息以回答给定问题时,它们能够表现出色。
  • 内在知识。测试分数相对较低,平均为 69%,表明大多数模型在其训练数据中可能没有足够的农发基金信息。正如预期的那样,与大型模型相比,小型模型的得分较低;例如,o3-mini (45%) 与 o3 (90%) 相比。然而,较小推理模型的新版本,例如 o4-mini,已经显示出改进的结果 (80%)。
  • 表格解释。在所有模型中,HTML 格式的表现最佳(89%)。XML (88%)、CSV (88%) 和 MD (86%) 紧随其后,而 JSON (78%) 和图像 (75%) 格式的性能明显下降。
  • 图表解读。大多数模型在图表解读方面表现不佳,平均得分仅为 37%。多模态推理模型的表现远高于平均水平,包括 o4-mini (75%)、o1 (75%) 和 o3 (65%)。值得注意的是,GPT-4o (54%) 的表现优于 GPT-4.1 (37%)。
  • 图像解读。所有模型的测试分数始终很高,平均得分为 92%,即使是 Gemma-3-27B-IT (85%) 和 GPT-4.1-nano (73%) 等较小的模型也表现相对出色。
  • 语言翻译。总体而言,专门的机器翻译人工智能服务(即 Azure Text Translation、DeepL Translate)在语言翻译测试中确实优于大多数人工智能模型,但仅是微弱优势。
  • 语言翻译。正如预期的那样,大多数模型在法语、西班牙语和葡萄牙语的语言翻译测试中表现更好,而阿拉伯语和中文则相对较差。
  • 语言翻译。不同的度量标准会产生不同的排名顺序。例如,DeepL Translate 在 ROUGE (63%) 上的平均得分高于 Azure Text Translation (62%),但在 METEOR (54% 对 56%) 上的平均得分较低。这说明了度量标准选择和理解的重要性,以及其对测试结果和解释的影响。BGE-M3 提供了一种完全不同的语言翻译评估视角,对于大多数模型和语言,其分数始终保持在 90% 左右的高水平。
  • 信息检索。在所有模型中,较长的上下文长度(64K、128K)的测试分数往往低于较短的上下文长度(16K、32K)。没有模型在所有上下文长度上都获得 100% 的分数,但 GPT-4.1 和 Llama-4-Maverick-17B-128E-Instruct 都接近。GPT-4.1 在除 128K (95%) 之外的所有上下文长度上都获得了 100% 的分数,而 Llama-4-Maverick-17B-128E-Instruct 在除 64K (97%) 之外的所有上下文长度上都获得了 100% 的分数。
  • 信息排序。嵌入模型的平均得分相当一致,为 90%,其中 text-embedding-3-large 和 text-embedding-ada-002 均为 91%,mxbai-embed-large-v1 为 89%。

未来工作

Garden V1 之前是 Garden V0,在其中我们最初开发了一系列松散且独立的脚本,试图跟上不断增长的测试想法和模型候选列表。从 Garden V0 中,我们了解到规划和自动化是大规模且错误最小地测试模型的关键,为此我们需要一种结构化的方法来处理我们的方法和代码库——这标志着 Garden V1 的开始。进入 Garden V2,我们计划从一开始就解决以下问题:

  • 通用。重新设计数据模型以改善数据库管理和数据可视化,同时考虑这两个领域之间必要的技术权衡。
  • 通用。根据预定义的最低技术要求列表对模型进行预审,这些要求符合农发基金运营环境相关的上下文长度、支持语言和兼容平台的最低业务要求。
  • 通用。侧重于根据农发基金当前人工智能用例设计和开发新测试,并与产品和服务的持续质量保证工作保持一致。
  • 生成模型。温度和 top-p 超参数值的标准化,以实现更等效的模型评估。
  • 推理模型。将推理测试分离到一个新类别中,专门设计用于测试与农发基金相关的更复杂问题。
  • 选择题。删除可能随时间变化的测试问题和答案。
  • 选择题。在选择题测试中加入第五个选项“E. 不知道”,以尽量减少侥幸猜对。
  • 语言翻译。扩大语言翻译测试范围,以包括与农发基金、联合国和国际金融机构相关的其他语言。
  • 语言翻译。扩大语言翻译测试范围,以包括农发基金工作环境中遇到的代表性不足的语言。
  • 信息检索。扩展信息检索测试,以考虑更短 (8K) 和更长 (1M) 的上下文窗口。
  • 信息检索。信息检索测试中验证过程的标准化,使用定制算法或适合目的的专用模型。
  • 信息排序。扩展信息排序测试类型和评估指标,以提供更全面的以 RAG 为中心的评估。
  • 语言翻译。重新设计语言翻译评估过程,通过采用更适合阿拉伯语和中文字符的标记化方法,确保标准机器翻译指标(BLEU、ROUGE、METEOR)在标记级别上的一致评估。
  • 语言翻译。设计和实现复合机器翻译指标,以更统一地评估语言翻译结果。

结论

Garden V1 是农发基金改进人工智能负责任和有效利用的首次尝试,但并非最终尝试。尽管在 Garden V2 及以后仍有改进空间,但 Garden V1 作为一项有效的人工智能模型评估框架,已展现出显著前景,该框架专为农发基金的工作环境和运营实际情况量身定制。这项初步基准测试的结果已经帮助解决了行业炒作(“DeepSeek 模型是否优于 OpenAI 模型?”)、为技术实施决策提供了信息(“我们应该使用专业的人工智能文本翻译服务还是依赖 LLM 翻译能力?”),并考虑了成本节约措施(“我们是否可以在不影响质量的情况下转向更小、更便宜的模型?”)。

随着人工智能模型不断取得突破性进展,我们将反思从 Garden V1 中吸取的经验教训,以便从农发基金的特定视角看待任何新发布,并为组织负责任和有效利用人工智能做出可能需要的重大决策。目前,我们分享 Garden V1 的经验,以期为人工智能社区做出贡献,并希望从中学习更多,以帮助我们塑造 Garden V2。

贡献者

里卡多·伦登·塞佩达、林友友、都妍秀、伯纳德·A·古特曼、岳紫萱、巴特拜娜·吉库拉、张万浩、托马斯·拉帕杰、坦塞尔·西姆塞克

社区

注册登录发表评论