宣布 Common Pile 和 Comma v0.1
社区文章 发布于 2025 年 6 月 6 日
我们很高兴地宣布发布 Common Pile v0.1,一个包含八太字节开放许可和公共领域文本的数据集。Common Pile 包含来自 30 个不同来源的文本,涵盖了研究论文、代码、书籍、教育材料、音频转录、政府文本等广泛领域。创建 Common Pile 的目标之一是回答这个问题:是否可以在不使用未经许可的文本的情况下训练出高性能的语言模型?我们通过在 Common Pile 的文本上训练两个 70 亿参数的 LLM 来肯定地回答这个问题:Comma v0.1-1T 和 Comma v0.1-2T,分别在 1 万亿和 2 万亿个 token 上进行训练。这两个模型在计算预算与 Llama 1 和 Llama 2 7B 等未经许可文本训练的 LLM 相似的情况下,都达到了具有竞争力的性能。除了模型检查点,我们还发布了用于训练 Comma v0.1 模型的过滤和重新平衡的数据集。此外,用于准备我们所有数据的代码都可以在我们的 GitHub 存储库上获取。您可以在我们的论文中阅读更多关于我们的数据集和模型的信息。如“v0.1”的命名所示,我们认为我们的工作是迈向更道德的语言模型生态系统的第一步,我们计划了许多未来的工作。如果您有兴趣支持我们的努力或做出贡献,请在 GitHub 上提出问题或与我们联系!