Transformers 文档
Falcon3
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Falcon3
概述
Falcon3 代表了从之前版本演进的自然发展,强调扩展模型的科学、数学和代码能力。此版本包括五个基础模型:Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在开发这些模型时,我们融入了多项关键创新,旨在提高模型性能,同时降低训练成本。
一次预训练:我们使用 2048 个 H100 GPU 芯片对 7B 模型进行了单次大规模预训练,利用了 14 万亿个令牌,这些令牌包含网络、代码、科学、技术、工程和数学(STEM)以及精选的高质量多语言数据。深度上采样以改进推理:基于近期关于模型深度影响的研究,我们通过复制冗余层并将高质量数据继续预训练 2TT,将 7B 模型上采样到 10B 参数模型。这产生了 Falcon3-10B-Base,它在 13B 参数以下的模型中实现了最先进的零样本和少样本性能。知识蒸馏以获得更好的微型模型:为了提供紧凑高效的替代方案,我们通过利用剪枝和知识蒸馏技术,使用不到 100GT 的精选高质量数据,开发了 Falcon3-1B-Base 和 Falcon3-3B-Base,从而重新定义了预训练效率。