TerjamaBench:一项针对英-达里贾语机器翻译的文化基准
引言
我们推出 TerjamaBench,这是一个用于英语-达里贾语机器翻译的评估基准。达里贾语,即摩洛哥阿拉伯方言,由于其非正式性、区域差异和数字资源稀缺性,给机器翻译带来了独特的挑战。TerjamaBench 包含精心策划的英语、阿拉伯字母达里贾语和拉丁字母达里贾语(Arabizi)平行文本,涵盖了广泛的文化背景和区域差异。我们评估了多种最先进的模型,包括专有大型语言模型(LLMs)和开源模型,并采用了各种评估方法。我们还通过分析其与人类判断的相关性,展示了机器翻译(MT)任务中广泛使用的指标在评估达里贾语翻译方面的局限性。我们的结果揭示了当前翻译能力存在的显著差距,并为改进达里贾语-英语翻译系统提供了见解。
主题 | Arabizi | 英语 | 达里贾语 |
---|---|---|---|
宗教 | lahysmehlina men lwalidin | 愿上帝原谅我们对父母的任何过错 | الله يسمحلينا من الوالدين |
习语 | zreb t3atal | 欲速则不达 | زرب تعطل |
命名实体 | sir khod chi carte dyal inwi o dirha f tilifonk | 去弄一张Inwi SIM卡,把它放进你的手机里 | سير خود شي كارط ديال إنوي وديرها في تليفونك |
常用短语 | 3tili tisa3 | 别烦我 | عطيلي التساع |
幽默 | chb3na tkrkir | 我们笑得前仰后合 | شبعنا تكركير |
数字和日期 | manl9ach 3ndek chi zer9a | 你有两百迪拉姆吗 | منلقاش عندك شي زرقة |
混合语言 | Une fois nwessl l dar n3iyt lik | 我一到家就给你打电话 | انفوا نوصل للدار نعيط ليك |
TerjamaBench数据集的示例。数据集可在atlasia/TerjamaBench中获取。
基准设计
TerjamaBench 通过细致的过程构建而成,解决了达里贾语独特的挑战,该语言展现出显著的地域和语言多样性。基准的开发涉及策划多样数据、提取有价值的见解,并承认数据集固有的局限性。
数据整理过程
该数据集由16名注释员和14名审阅员手动整理,他们都是摩洛哥本土人士。每位注释员都带来了区域专业知识,确保了达里贾语在摩洛哥各地变体的广泛代表性。目标是捕捉正式和非正式表达,重点是语言的口语性质。我们遵循结构化方法:
- 明确的注释指南。
- 验证步骤,确保语言和文化的真实性。
- 区域变体及其频率的文档。
- 母语人士多轮审查,确保准确性。
主要见解与统计数据
该数据集包含850个条目,分为六列:
- 主题:句子的广义类别。
- 子主题:主题内更具体的分类。
- Arabizi:拉丁字母书写的达里贾语。
- 英语:达里贾语文本的英语翻译。
- 达里贾语(阿拉伯字母):阿拉伯字母书写的达里贾语。
- 注释员方言(城市):注释员所说的区域变体。
该数据集包括标准短语和习语表达,重点在于最小化偏见,并捕捉达里贾语中常见的语码转换现象,即说话者混合使用阿拉伯语、柏柏尔语、法语,有时还包括英语。
主题涵盖了广泛的类别:
主题 | 描述 | 样本数量 |
---|---|---|
常用短语 | 日常表达,如问候语和常用语。 | 136 |
命名实体 | 包含专有名词、地名、城市等的句子。 | 53 |
数字和日期表达 | 包含数字、日期或时间表达的句子。 | 62 |
教育 | 来自医学、法律或科学语境的句子。 | 73 |
混合语言内容 | 达里贾语与现代标准阿拉伯语、法语或英语混合的句子。 | 50 |
习语 | 摩洛哥文化独有的谚语和俗语。 | 51 |
幽默 | 笑话、双关语或幽默表达。 | 50 |
宗教 | 包含宗教术语或表达的句子。 | 66 |
单字 | 孤立的单词,用于测试基本翻译能力。 | 163 |
长句 | 旨在测试长篇翻译连贯性的句子。 | 50 |
拼写错误 | 包含轻微拼写错误的句子,用于评估模型的鲁棒性。 | 50 |
方言变体 | 来自摩洛哥不同地区(北部、东部、南部)的句子。 | 46 |
局限性
尽管数据整理过程严谨,但数据集仍存在一些局限性。首先,存在地域偏差;尽管我们努力涵盖多样化的方言,但某些地区仍过度代表。另一个挑战是书写达里贾语的正字法变体。由于达里贾语缺乏标准化的书写系统,拼写和语法上的不一致很常见,这使得机器翻译模型变得复杂。Arabizi 的使用,一种非正式且以语音驱动的无正式规则的脚本,进一步增加了复杂性,使机器翻译模型难以规范化。
实验设置
数据集
初始数据集包含850个条目。在去重并删除“方言变体”主题(由于其复杂性)后,我们的最终实验子集包含788个样本。为了进行人工评估,我们从每个主题中随机抽取了30%(共788个中的237个)进行分层抽样,以确保所有主题的比例代表性。
模型
我们评估了各种专有和开源模型,以基准化英语到达里贾语的翻译性能:
- gemini-exp-1206, claude-3-5-sonnet-20241022, gpt-4o-2024-08-06:这些专有模型是根据英语到达里贾语翻译的顶级人工判断选择的。
- atlasia/Terjman-Large-v1.2, atlasia/Terjman-Nano:AtlasIA的机器翻译模型,专门针对英语到达里贾语翻译进行微调。
- MBZUAI-Paris/Atlas-Chat-9B:一个开源的达里贾语LLM。
- facebook/nllb-200-3.3B:用作基线。
模型 | 参数量 | 类型 | 基础架构 |
---|---|---|---|
gemini-exp-1206 | * | 专有 | |
claude-3-5-sonnet-20241022 | * | 专有 | |
gpt-4-2024-08-06 | * | 专有 | |
atlasia/Terjman-Large-v1.2 | 240M | 开源 | Helsinki-NLP/opus-mt-tc-big-en-ar |
atlasia/Terjman-Nano | 77M | 开源 | Helsinki-NLP/opus-mt-en-ar |
MBZUAI-Paris/Atlas-Chat-9B | 9B | 开源 | gemma-2-9b |
facebook/nllb-200-3.3B | 3.3B | 开源 |
评估方法
基于指标的评估
为了评估模型性能,我们采用了机器翻译中三种标准且广泛使用的指标:双语评估替补(BLEU)、字符级F分数(chrF)和翻译错误率(TER)。BLEU:衡量模型输出与参考翻译之间的n-gram重叠。chrF:侧重于字符级n-gram,为相似性提供更精细的见解,特别是对于形态丰富的语言如达里贾语。TER:计算将模型输出转换为参考翻译所需的编辑次数。然而,我们承认它们的局限性,特别是对于达里贾语这种具有高正字法和语言变异性的语言。接下来的部分将强调为什么这些指标可能无法完全捕捉摩洛哥达里贾语翻译质量。
LLM作为裁判评估
为了补充传统指标并提供更具上下文敏感性的评估,我们利用Claude 3.5 Sonnet(2024-10-22)作为评估裁判。使用附录1中的提示,我们通过向模型提供参考和生成的输出,对翻译进行评估,并以细致的4分制对每个样本进行评分:-1:翻译包含重复的标记或明显的错误。0:翻译不正确、无意义或缺少任何达里贾语单词。1:翻译大部分正确,但包含现代标准阿拉伯语元素(至少一个达里贾语单词)或存在轻微错别字。2:翻译完全正确且完全使用达里贾语。
人工评估
为了验证我们评估方法的可靠性,我们对每个主题中随机抽取的30%子样本(共241个样本)进行了人工评估。我们采用了与LLM作为裁判相同的4分制。主要目标是评估基于指标的方法(BLEU、chrF、TER)和LLM作为裁判的评估是否与人类判断相关。
结果与分析
模型性能比较
基于指标
参数量 | BLEU↑ | chrF↑ | TER↓ | |
---|---|---|---|---|
专有模型 | ||||
gemini-exp-1206 | * | 30.69 | 54.16 | 67.62 |
claude-3-5-sonnet-20241022 | * | 30.51 | 51.8 | 67.42 |
gpt-4o-2024-08-06 | * | 28.3 | 50.13 | 71.77 |
开源模型 | ||||
atlasia/Terjman-Large-v1.2 | 240M | 16.33 | 37.1 | 89.13 |
MBZUAI-Paris/Atlas-Chat-9B | 9B | 14.8 | 35.26 | 93.95 |
facebook/nllb-200-3.3B | 3.3B | 14.76 | 34.17 | 94.33 |
atlasia/Terjman-Nano | 77M | 9.98 | 26.55 | 106.49 |
表1:各模型的BLEU、chrF和TER得分。BLEU和chrF得分越高表示与参考翻译的对齐度越好,而TER得分越低表示所需编辑次数越少。
专有模型在基于指标的评估和主题特定评估中始终优于开源模型,其中gemini-exp-1206和claude-3-5-sonnet-20241022表现最佳(参见附录表2)。在开源模型中,atlasia/Terjman-Large表现最佳,尽管它显著落后于专有模型。诸如“宗教”和“单字”等主题更容易,这在所有模型中得分更高有所体现,而“习语”和“长句”则极具挑战性,特别是对于开源模型,这凸显了它们在处理上下文敏感和结构复杂翻译方面的困难。
LLM作为裁判
LLM作为裁判的评估(附录 - 表3)在专有模型中保持了与基于指标的评估相同的等级,但对于开源模型则揭示了更细致的情况。虽然专有模型仍然领先(gemini的高质量翻译率为63.58%),但Atlas-Chat-9B(39.47%)与Terjman-Large(32.87%)表现出竞争力,尽管其指标得分较低。主题细分(附录 - 表4)显示了有趣的模式——模型在“常用短语”和“命名实体”上保持了高性能,但在“习语”和“长句”方面表现更差,特别是开源模型。
人工评估
人工判断(附录 - 表5)证实了专有模型的优越性,其中gemini-exp-1206获得了最高评级。然而,主题层面的分析(附录 - 表6)显示,即使是专有模型,在处理“幽默”和“习语”等文化负荷较重的主题时也存在困难,但在“宗教”和“常用短语”等更直接的主题上表现出色。总体而言,专有模型在所有评估方法中,特别是在具有挑战性的主题上,持续表现出强大性能,这凸显了开源替代方案在处理达里贾语语言复杂性方面的现有局限性。
此外,如下所示,人类评估员对大多数模型的翻译评价普遍优于LLM裁判。
模型 | LLM作为裁判 | 人工评估 |
---|---|---|
gemini-exp-1206 | 63.07 | 84.23 |
claude_3_5_sonnet | 65.56 | 79.67 |
gpt-4o-2024-08-06 | 56.43 | 67.22 |
MBZUAI-Paris/Atlas-Chat-9B | 36.51 | 50.21 |
atlasia/Terjman-Large-v1.2 | 29.05 | 48.13 |
facebook/nllb-200-3.3B | 21.58 | 32.78 |
atlasia/Terjman-Nano | 11.62 | 21.99 |
表7:评估子集中,LLM作为裁判和人工评估的2分样本百分比。
这表明当前的自动化评估方法与人工评估不一致。通过不同评估视角的逐步分析揭示,尽管基于度量的方法能够捕捉广泛的性能趋势,但它们可能低估了翻译的绝对质量以及简单和复杂主题之间真正的难度差距。
人工评估与其他方法的相关性
为了验证我们自动化评估方法的可靠性,我们对人工评估分数与第“人工评估”部分描述的相同子集中的其他评估方法进行了全面的相关性分析。表7显示了斯皮尔曼相关系数。
BLEU | chrF | TER | LLM作为裁判 | |
---|---|---|---|---|
斯皮尔曼相关系数 | 0.345 | 0.406 | -0.359 | 0.411 |
表8:人工评估与其他评估方法之间的相关性。统计显著性小于10−4
度量可靠性:chrF与人类判断的相关性最强。
错误度量:TER与人工评估呈中度负相关,这表明虽然它能捕捉翻译质量的某些方面,但可能无法完全与人类对地方翻译充分性的感知保持一致。
LLM作为裁判的方法显示出与chrF相似且更高的相关性,表明其作为鲁棒评估指标的潜力。
所有相关性均具有统计显著性 (p < 0.001),表明这些关系的可靠性。然而,这些相关性的中等强度表明,没有单一的自动化度量可以完全取代人工评估来评估达里贾语翻译质量。这一发现强调了使用多种评估方法的重要性,正如我们在这项研究中所做的那样,以全面了解翻译质量。这些结果也突出了开发更复杂、专门为方言阿拉伯语翻译设计的评估指标的必要性,这些指标可能包含更能与方言语境下翻译质量的人工判断对齐的特征。
专有LLM性能的定性分析
- Gemini-exp-1206在处理达里贾语方面表现出强大的能力,尽管有时会产生不自然或笨拙的短语。其最常见的错误是英语直译和偶尔使用标准阿拉伯语。一些问题包括:
- 笨拙的结构
- 例如:“مال هاد الضحك غير على سبة”(这种傻笑是怎么回事)
- 动词-主语一致
- 例如:“ألف درهم راه”(应为“راها”)
- 搭配错误
- 例如:“ديال أيام القراية”(“从学校时代”听起来不自然)
- 缺少冠词
- 例如:“شكلاط سخون عفاك”(应包含“شي”或“واحد ال”之类的冠词)
- 标准阿拉伯语词汇
- 例如:“مضحك”、“ما كياخد حتى حاجة محمل الجد”
- 英语直译
- 例如:“كيفاش كتقدر”(你怎么敢),“السلام الصاحب”(朋友你好)
- 笨拙的结构
- GPT-4o在达里贾语方面也表现出色,但在词语选择和直译方面存在不一致,降低了输出的自然度。其中一些问题包括:
- 翻译/词语使用不正确
- 例如:“شحال فعامك؟”(你几岁了),“واش عطيتي لماما العصير”(你给妈妈果汁了吗)
- 直译
- 例如:“ضعت لي مفاتيح الدار”(我丢了我的钥匙),“غادي نطيح من الضحك”(我会笑晕过去)
- 对“آ”处理不一致
- 例如:“سير دي ولادك لغابة المعمورة صاحبي”、“شنو قلت ليك يا هاجر?”
- 缺少后缀
- 例如:“شفت الماتش ديال Barça البارح?”(应为“شفتي”)
- 搭配问题
- 例如:“شنو النهار اليوم?”(应为“شمن نهار”)
- 偶尔使用标准阿拉伯语
- 例如:“ماخصش الواحد يزعل بسهولة”、“مضحك”
- 翻译/词语使用不正确
- Claude 3.5 Sonnet 在处理摩洛哥达里贾语时遇到了显著困难,尤其是在直译和使用更常用于标准阿拉伯语的词汇或表达方面。以下是一些观察到的问题:
- 动宾一致
- 例如:وصلو رسالة, بلي وقع شي مخالفة(应为 وصلاتو)
- 搭配问题
- 例如:“تحكم عليه فالمحكمة الفيدرالية ف 2008 على رشوة”、“للمعاش ديالو عند التقاعد”(应为 بالرشوة)
- 词序问题
- 例如:Nothing has changed -> والو ما تبدل(应为 ما تبدل والو)
- 过度确定性
- 例如:“human persons have a right to life” -> “البنادم عندو الحق فالحياة”(应为 بنادم)
- 使用标准阿拉伯语(Fus7a)词汇/表达
- 例如:المقبلة, بسماحهم, القسط, بنايات, على طول, لرفيقتو
- 直译
- 例如:“cease to be blind” -> “توقفو تكونو عميان”
- 某些疑问形式的问题
- 例如:“Which of the following observations about revolutions and gender is best supported by the first passage?” -> “شنو من هاد الملاحظات على الثورات والجنس هي اللي كتدعمها أحسن الفقرة الأولى?”
- 动宾一致
总结与未来研究方向
TerjamaBench为英语-达里贾语机器翻译的进步做出了多项重大贡献:
- 一个丰富、多样且具有文化特异性的基准数据集,旨在反映真实的摩洛哥达里贾语使用情况,涵盖日常表达、技术词汇和区域方言等类别。
- 对各种评估方法进行了比较研究,突出了它们与人工评估的一致性。
- 对各种模型在不同语言挑战(如句法、语义和方言变体)下的详细定量和定性评估。
我们的研究结果表明,尽管专有模型显示出有希望的结果,但在以下方面仍存在显著挑战:
- 处理区域方言变体
- 翻译习语
- 在长篇翻译中保持一致性
- 处理混合语言内容
未来的工作应侧重于:
- 扩展基准以包含更多区域变体
- 开发针对达里贾语的评估指标
- 提高开源模型在文化表达方面的性能
专有模型和开源模型之间的显著差距凸显了需要更多投入于开源达里贾语翻译能力,以提高这些技术的可及性。
致谢
特别感谢以下贡献者:Aissam Outchakoucht、Chaymae Rami、Mahmoud Bidry、Zaid Chiech、Imane Momayiz、Abdelaziz Bounhar、Abir Arsalane、Abdeljalil ElMajjodi、Aymane ElFirdoussi、Salah-Eddine Iguiliz、Hamza Essamaali、Ihssane Nedjaoui、Anas Amchaar、Yousef Khoubrane、Khaoula Alaoui、Salah-Eddine Alabouch、Adnan Anouzla、Bilal El Hammouchi、Taha Boukhari、Mustapha Ajeghrir、Ikhlas Elhamly、Fouad Aurag、Omar Choukrani、Ali Nirheche、Yanis Bardes、Abdelmonaim Bounite。
引用
@article{atlasia2024terjamabench,
title={TerjamaBench: A Culturally Specific Dataset for Evaluating Translation Models for Moroccan Darija},
author={Imane Momayiz and Aissam Outchakoucht and Omar Choukrani and Ali Nirheche},
year={2024},
url={https://huggingface.co/datasets/atlasia/TerjamaBench/}
institution={AtlasIA}
}
附录
用于生成翻译的提示
You are a Moroccan Arabic (Darija) translator. Your task is to translate text from English to Moroccan Arabic using Arabic script, following these guidelines:
1. Maintain any JSON formatting in the original text
2. For words without common Arabic equivalents, use their French translations as Moroccans would do
3. Preserve all code and technical terms in French/English
4. Adapt any culturally sensitive content to be appropriate for Moroccan audiences
5. For idioms, literature, examples, and questions, provide natural Moroccan Arabic translations
6. Use Moroccan Arabic instead of Modern Standard Arabic whenever possible (VERY IMPORTANT)
Format your response as:
[
{"original": "I love going to the beach", "translation": "كنبغي نمشي للبحر"},
{"original": "The weather is nice today", "translation": "الجو زوين اليوم"}
]
Please translate the following JSON list of texts:
用于LLM作为裁判的提示
You are a native Moroccan Arabic (Darija) speaker and expert linguist. You will evaluate machine translations into Moroccan Arabic.
For each example, you will be given:
1. The original English text
2. The ground truth Moroccan Arabic in Arabic script
3. A machine-generated translation in Arabic script
Please evaluate the machine translation by:
1. Comparing it to the ground truth version (Arabic script). But keep in mind that the ground truth can be in a different dialect.
2. Checking for:
- Accuracy of meaning
- Natural Moroccan dialect usage
- Appropriate colloquial expressions
- Correct grammar and word choice
3. Give a score where:
-1 = Contains repetitive tokens or bugs
0 = Translation is incorrect, makes no sense, or contains no Darija words
1 = Translation is correct but mixed with Modern Standard Arabic (contains at least one Darija word) or has minor typos
2 = Translation is correct and fully in Darija
Format your response in JSON format, with each line containing a JSON object with these fields in this order:
- analysis: Brief explanation of score, highlighting strengths/weaknesses
- score: Integer score (-1, 0, 1, or 2)
# Example evaluation
Input:
{
"English": "the speech was addressed to all the people who were present",
"Darija": "الهدرة توجهات لكاع الناس اللي كانو حاضرين",
"machine": "الخطاب توجه لجميع الناس اللي كانو حاضرين"
}
Output:
{"analysis": "استعملو 'جميع' عوض 'كاع'، وهادي أقرب للعربية الفصحى", "score": 1}
{"analysis": "مسا الخير صحيحة بالدارجة غير هي بلهجة مختلفة", "score": 2}
Here are 15 samples to evaluate:
主题 | gemini-exp-1206 | claude_3_5_sonnet | gpt-4o-2024-08-06 | atlasia/Terjman-Large-v1.2 | facebook/nllb-200-3.3B | MBZUAI-Paris/Atlas-Chat-9B | atlasia/Terjman-Nano |
---|---|---|---|---|---|---|---|
常用短语 | 27.27 | 27.99 | 26.86 | 20.75 | 14.87 | 19.26 | 8.71 |
教育 | 25.96 | 21.64 | 19.86 | 11.66 | 13.2 | 8.83 | 9.7 |
幽默 | 21.37 | 17.63 | 15.11 | 15.58 | 7.26 | 10.08 | 8.88 |
习语 | 23.93 | 18.37 | 12.26 | 4.58 | 2.72 | 6.16 | 3.62 |
拼写错误 | 18.82 | 17.76 | 15.88 | 13.33 | 9.15 | 11.03 | 7.94 |
长句 | 15.57 | 11.23 | 13.5 | 8.28 | 4.86 | 5.82 | 6.89 |
混合语言 | 19.7 | 23.4 | 20.88 | 11.98 | 13.44 | 13.49 | 9.82 |
命名实体 | 28.42 | 24.04 | 26.69 | 13.35 | 11.1 | 11.93 | 10.3 |
数字和日期 | 25.61 | 26.76 | 20.73 | 16.16 | 12.39 | 9.91 | 10.05 |
宗教 | 53.15 | 51.5 | 48.12 | 25.64 | 26.92 | 21.63 | 18.12 |
单字 | 45.34 | 50.93 | 47.83 | 20.5 | 23.6 | 22.05 | 11.66 |
表2:各模型各主题的BLEU分数。(越高越好)
高质量翻译(2分)百分比 | |
---|---|
gemini-exp-1206 | 63.58 |
claude-3-5-sonnet-20241022 | 62.69 |
gpt-4o-2024-08-06 | 57.11 |
MBZUAI-Paris/Atlas-Chat-9B | 39.47 |
atlasia/Terjman-Large-v1.2 | 32.87 |
facebook/nllb-200-3.3B | 24.75 |
atlasia/Terjman-Nano | 14.21 |
表3:LLM作为裁判评估的各模型高质量翻译(得分=2)百分比。
主题 | gemini-exp-1206 | claude_3_5_sonnet | gpt-4o-2024-08-06 | atlasia/Terjman-Large-v1.2 | MBZUAI-Paris/Atlas-Chat-9B | atlasia/Terjman-Nano | facebook/nllb-200-3.3B |
---|---|---|---|---|---|---|---|
常用短语 | 75.56 | 71.85 | 72.59 | 48.15 | 48.15 | 18.52 | 31.85 |
教育 | 47.89 | 53.52 | 43.66 | 30.99 | 40.85 | 11.27 | 25.35 |
幽默 | 55.1 | 53.06 | 46.94 | 32.65 | 32.65 | 12.24 | 22.45 |
习语 | 68.63 | 62.75 | 56.86 | 13.73 | 23.53 | 11.76 | 13.73 |
拼写错误 | 60.87 | 54.35 | 52.17 | 43.48 | 43.48 | 10.87 | 17.39 |
长句 | 70 | 84 | 58 | 30 | 36 | 6 | 16 |
混合语言 | 51.06 | 46.81 | 51.06 | 31.91 | 34.04 | 8.51 | 19.15 |
命名实体 | 73.58 | 79.25 | 71.7 | 32.08 | 24.53 | 16.98 | 22.64 |
数字和日期 | 61.02 | 59.32 | 44.07 | 30.51 | 50.85 | 16.95 | 30.51 |
宗教 | 59.09 | 59.09 | 56.06 | 22.73 | 16.67 | 7.58 | 21.21 |
单字 | 63.35 | 59.63 | 56.52 | 30.43 | 50.31 | 19.25 | 29.19 |
表4:LLM作为裁判评估的各模型各主题高质量翻译(得分=2)百分比。
高质量翻译(2分)百分比 | |
---|---|
gemini-exp-1206 | 84.23 |
claude-3-5-sonnet-20241022 | 79.67 |
gpt-4o-2024-08-06 | 67.22 |
MBZUAI-Paris/Atlas-Chat-9B | 50.21 |
atlasia/Terjman-Large-v1.2 | 48.13 |
facebook/nllb-200-3.3B | 32.78 |
atlasia/Terjman-Nano | 21.99 |
表5:人工评估员评定的各模型高质量翻译(得分=2)百分比。
主题 | gemini-exp-1206 | claude_3_5_sonnet | gpt-4o-2024-08-06 | atlasia/Terjman-Large-v1.2 | MBZUAI-Paris/Atlas-Chat-9B | atlasia/Terjman-Nano | facebook/nllb-200-3.3B |
---|---|---|---|---|---|---|---|
常用短语 | 90.24 | 85.37 | 78.05 | 51.22 | 73.17 | 31.71 | 39.02 |
教育 | 90.91 | 72.73 | 77.27 | 54.55 | 27.27 | 13.64 | 22.73 |
幽默 | 53.33 | 53.33 | 20 | 46.67 | 33.33 | 6.67 | 26.67 |
习语 | 73.33 | 60 | 66.67 | 6.67 | 6.67 | 6.67 | 0 |
拼写错误 | 73.33 | 80 | 66.67 | 66.67 | 60 | 13.33 | 26.67 |
长句 | 80 | 53.33 | 33.33 | 13.33 | 33.33 | 0 | 6.67 |
混合语言 | 86.67 | 80 | 73.33 | 53.33 | 60 | 33.33 | 40 |
命名实体 | 81.25 | 93.75 | 62.5 | 37.5 | 37.5 | 18.75 | 25 |
数字和日期 | 84.21 | 84.21 | 36.84 | 63.16 | 47.37 | 10.53 | 31.58 |
宗教 | 95 | 95 | 85 | 55 | 40 | 25 | 40 |
单字 | 89.58 | 87.5 | 83.33 | 54.17 | 68.75 | 37.5 | 52.08 |
表6:人工评估员评定的各模型各主题高质量翻译(得分=2)百分比。