Transformers 文档
Falcon3
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
Falcon3
概述
Falcon3 代表了先前版本的自然演进,强调扩展模型的科学、数学和代码能力。此迭代包括五个基础模型:Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在开发这些模型时,我们融入了几项旨在提高模型性能同时降低训练成本的关键创新
单次预训练:我们对 7B 模型进行了单次大规模预训练运行,使用 2048 个 H100 GPU 芯片,利用 14 万亿个 tokens,包括网络、代码、STEM 以及精选的高质量和多语言数据。深度向上扩展以改进推理:基于最近关于模型深度影响的研究,我们将 7B 模型向上扩展到 10B 参数模型,方法是复制冗余层并使用 2TT 高质量数据继续预训练。这产生了 Falcon3-10B-Base,它在 13B 参数以下的模型中实现了最先进的零样本和少样本性能。知识蒸馏以获得更好的微型模型:为了提供紧凑高效的替代方案,我们通过利用剪枝和知识蒸馏技术开发了 Falcon3-1B-Base 和 Falcon3-3B-Base,使用了不到 100GT 的精选高质量数据,从而重新定义了预训练效率。