开源低资源语言数据集,用于监督微调语言模型
MyanmarGPT 于 2023 年 12 月发布。此后,社区中出现了许多问题,要求提供 SFT 数据集以进一步微调语言模型。
监督微调(SFT)是一种技术,通过在特定任务的标记数据集上进一步训练预训练模型,以提高其在该任务上的性能。这种方法利用模型在预训练期间获得的现有知识,并将其适应更具体的领域或问题。
在 2024 年,我发布了通用和特定领域的数据集,用于微调指令模型。以下是数据集的集合列表。
缅甸微生物学 1K 数据集
链接 - https://huggingface.co/datasets/jojo-ai-mst/Burmese-Microbiology-1K
论文 - 缅甸微生物学 1K 数据集
缅甸微生物学 1K 数据集是微生物学领域的特定领域知识数据集。该数据集包括微生物培养基和微生物,包括细菌、病毒、真菌和寄生虫。该数据集不仅旨在用于微调语言模型,还可以用于在公共卫生相关应用中构建 RAG - 检索增强生成驱动的应用程序。
该数据集包含 1263 行缅甸语微生物学问答。
缅甸农业 1K 数据集
链接 - https://huggingface.co/datasets/jojo-ai-mst/Myanmar-Agricutlure-1K
缅甸农业 1K 数据集也是缅甸农业领域的特定领域知识数据集。该数据集包括如何根据缅甸的天气和土壤条件种植植物和树木、气候变化、园艺以及如何减少碳排放。
该数据集包含 1053 行问答。
缅甸猴痘
链接 - https://huggingface.co/datasets/jojo-ai-mst/Mpox-Myanmar
缅甸猴痘是一个针对特定病毒——猴痘的数据集。2024 年,猴痘是世界范围内 WHO 预警的疫情。因此,为了提供猴痘信息,该数据集是根据 WHO 文章和缅甸政府网站文章整理的。
该数据集包含 99 行问答和元数据。
角色扮演-缅甸语
链接 - https://huggingface.co/datasets/jojo-ai-mst/Roleplay-Burmese
角色扮演-缅甸语是多语言角色扮演数据集集合的一部分。多语言角色扮演数据集是用于不同低资源语言的角色扮演数据集集合。这些语言包括东南亚国家、非洲国家和世界其他低资源语言。
原始的角色扮演数据集是teknium 1的 GPTeacher 角色扮演数据集,该数据集通过 Google 翻译引擎翻译成多种语言,并根据 MIT 许可发布,用于学术和研究目的。
该数据集包含 1923 行指令、输入和响应。
多语言角色扮演
链接 - https://huggingface.co/collections/jojo-ai-mst/multilingual-roleplay-66f91668cb7628aaef4af6ed
这个想法始于缅甸角色扮演数据集。世界上许多语言资源匮乏。因此,也需要为这些语言整理角色扮演数据集。
这个数据集集合是关于低资源语言的角色扮演。包含的语言有:
- 缅甸语 (my)
- 老挝语 (lo)
- 高棉语 (khm)
- 马来语 (ms)
- 越南语 (vi)
- 泰语 (th)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 菲律宾语 (fil)
- 孟加拉语 (bn)
- 南非荷兰语 (af)
- 阿尔巴尼亚语 (sq)
- 阿姆哈拉语 (am)
- 格鲁吉亚语 (ka)
- 爱尔兰语 (ga)
- 祖鲁语 (zu)
- 塞尔维亚语 (sr)
- 卢旺达语 (rw)
- 索马里语 (so)
- 库尔德语 (ku)
- 豪萨语 (ha)
- 冰岛语 (is)
- 尼泊尔语 (ne)
- 旁遮普语 (pa)
- 泰米尔语 (ta)
- 意第绪语 (yi)
- 希伯来语 (he)
- 阿塞拜疆语 (az)
- 哈萨克语 (kk)
- 宿务语 (ceb)
将添加到此集合中的更多语言有:
- 土耳其语 (tr)
- 芬兰语 (fin)
- 捷克语 (cs)
- 挪威语 (no)
- 蒙古语 (mn)
- 立陶宛语 (lt)
若开谚语
链接 - https://huggingface.co/datasets/jojo-ai-mst/Rakhine-Proverbs
若开语/阿拉干语是缅甸若开邦的一种语言。它是一种低资源语言。该数据集以公共领域许可发布。这些谚语摘自 1996 年 8 月出版的《ဥပမာစုံ၊ ရခိုင်စကားပုံ。》一书,作者是“阿信·塞克金达 (Ashin Sakkinda)、阿信·瓦萨瓦 (Ashin Wasawa)”。
该数据集包含 221 行若开语谚语。
MyanmarGPT-Movement
这些数据集是在 "myanmargpt-movement" 2024 年活动期间发布的。