StarCoder：一款最先进的代码大型语言模型

发布日期：2023 年 5 月 4 日

在 GitHub 上更新

Leandro von Werra

lvwerra

卢布纳·本·阿拉尔 (Loubna Ben Allal)

loubnabnl

StarCoder 简介

评估

技术助手

训练数据

关于 BigCode

额外发布

相关链接
模型

工具与演示

数据与治理

StarCoder 简介

StarCoder 和 StarCoderBase 是针对代码的大型语言模型 (Code LLMs)，使用来自 GitHub 的许可数据进行训练，其中包括 80 多种编程语言、Git 提交、GitHub 问题和 Jupyter Notebook。与 LLaMA 类似，我们训练了一个约 150 亿参数的模型，处理了 1 万亿个标记。我们对 StarCoderBase 模型进行了 350 亿个 Python 标记的微调，得到了一个我们称之为 StarCoder 的新模型。

我们发现 StarCoderBase 在流行的编程基准测试中优于现有的开源 Code LLM，并与 OpenAI 的 `code-cushman-001`（为早期版本 GitHub Copilot 提供支持的原始 Codex 模型）等封闭模型持平或超越。StarCoder 模型具有超过 8000 个标记的上下文长度，可以处理比任何其他开源 LLM 更多的输入，从而支持广泛的有趣应用。例如，通过向 StarCoder 模型提供一系列对话提示，我们使其能够充当技术助手。此外，这些模型还可以用于代码自动完成、通过指令修改代码以及用自然语言解释代码片段。我们采取了几个重要步骤，以实现安全开源模型发布，包括改进的 PII 匿名化管道、新颖的归因追踪工具，并根据改进版的 OpenRAIL 许可证公开发布 StarCoder。更新后的许可证简化了公司将模型集成到其产品中的过程。我们相信，凭借其强大的性能，StarCoder 模型将成为社区使用和适应其用例和产品的坚实基础。

评估

我们彻底评估了 StarCoder 和几个类似模型，以及各种基准。一个流行的 Python 基准测试是 HumanEval，它测试模型是否能够根据其签名和文档字符串完成函数。我们发现 StarCoder 和 StarCoderBase 都优于包括 PaLM、LaMDA 和 LLaMA 在内的最大模型，尽管它们的规模显著更小。它们还优于 CodeGen-16B-Mono 和 OpenAI 的 code-cushman-001 (12B) 模型。我们还注意到，模型的一个失败案例是它会生成 `# Solution here` 代码，这可能是因为这种类型的代码通常是练习的一部分。为了强制模型生成实际解决方案，我们添加了提示 `<filename>solutions/solution_1.py\n# Here is the correct implementation of the code exercise`。这显著提高了 StarCoder 的 HumanEval 得分，从 34% 提高到 40% 以上，为开源模型设定了新的最先进结果。我们还尝试了 CodeGen 和 StarCoderBase 的这个提示，但没有观察到太大差异。

模型	HumanEval	MBPP
LLaMA-7B	10.5	17.7
LaMDA-137B	14.0	14.8
LLaMA-13B	15.8	22.0
CodeGen-16B-Multi	18.3	20.9
LLaMA-33B	21.7	30.2
CodeGeeX	22.9	24.4
LLaMA-65B	23.7	37.7
PaLM-540B	26.2	36.8
CodeGen-16B-Mono	29.3	35.3
StarCoderBase	30.4	49.0
code-cushman-001	33.5	45.9
StarCoder	33.6	52.7
StarCoder-Prompted	40.8	49.5

StarCoder 的一个有趣之处在于它是多语言的，因此我们在 MultiPL-E 上对其进行了评估，该基准将 HumanEval 扩展到许多其他语言。我们观察到 StarCoder 在许多语言上与 `code-cushman-001` 持平或表现更优。在名为 DS-1000 的数据科学基准测试中，它也明显优于所有其他开放获取模型。但除了代码补全之外，让我们看看该模型还能做什么！

技术助手

通过详尽的评估，我们发现 StarCoder 在编写代码方面能力很强。但我们也想测试它是否可以用作技术助手，毕竟它是在大量文档和 GitHub 问题上训练出来的。受 Anthropic HHH 提示的启发，我们构建了一个技术助手提示。令人惊讶的是，仅仅通过提示，该模型就能够充当技术助手并回答与编程相关的请求！