🌸 隆重推出全球最大的开放式多语言语言模型:BLOOM 🌸
大型语言模型 (LLM) 对人工智能研究产生了重大影响。这些功能强大、通用的模型能够根据用户的指令处理各种新的语言任务。然而,学术界、非营利组织和小型公司的研究实验室发现创建、研究甚至使用 LLM 困难重重,因为只有少数拥有必要资源和独家权利的工业实验室才能完全访问它们。今天,我们发布了 BLOOM,这是第一个以完全透明的方式训练的多语言 LLM,旨在改变这种现状——这是人工智能研究人员有史以来参与单个研究项目最大规模合作的成果。
BLOOM 拥有 1760 亿个参数,能够生成 46 种自然语言和 13 种编程语言的文本。对于几乎所有这些语言,例如西班牙语、法语和阿拉伯语,BLOOM 将是第一个拥有超过 1000 亿个参数的语言模型。这是一年工作的结晶,涉及来自 70 多个国家和 250 多个机构的 1000 多名研究人员,最终在法国巴黎南部的 Jean Zay 超级计算机上进行了 117 天(3 月 11 日至 7 月 6 日)的 BLOOM 模型训练,这得益于法国研究机构 CNRS 和 GENCI 提供的约 300 万欧元的计算资助。
研究人员现在可以 下载、运行和研究 BLOOM,以深入探究近期开发的大型语言模型的性能和行为,直至其最深层的内部操作。更普遍的是,任何同意模型负责任 AI 许可证(在 BigScience 项目本身开发)条款的个人或机构都可以在本地机器或云提供商上使用和构建该模型。本着合作和持续改进的精神,我们还首次发布了训练的中间检查点和优化器状态。没有 8 块 A100 可以使用?由 Google TPU 云和 FLAX 版模型支持的推理 API 也允许快速测试、原型设计和低规模使用。您已经可以在 Hugging Face Hub 上试用它了。
这仅仅是个开始。BLOOM 的能力将随着工作坊对模型的持续实验和调整而不断提升。我们已经开始努力使其像我们早期的 T0++ 一样可指令化,并计划添加更多语言,将模型压缩成性能相同但更易用的版本,并将其作为更复杂架构的起点……研究人员和实践者一直想进行的所有实验,现在都可以利用 1000 亿参数以上模型的强大功能来实现。BLOOM 是一个活生生模型家族的种子,我们打算让它成长壮大,而不仅仅是一个一次性模型,我们已准备好支持社区扩展它的努力。