Transformers
加入 Hugging Face 社区
并获得增强的文档体验
该模型于 2024-12-17 发布,并于 2024-12-17 添加到 Hugging Face Transformers。
Falcon3
概述
Falcon3 是先前版本的自然演进,重点在于扩展模型在科学、数学和代码方面的能力。此次迭代包含五个基础模型:Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在开发这些模型时,我们融入了多项关键创新,旨在提高模型性能的同时降低训练成本。
一次预训练:我们对 7B 模型进行了一次大规模预训练,使用了 2048 个 H100 GPU 芯片,涵盖了 14 万亿个 token,包括网络、代码、STEM 以及精选的高质量和多语言数据。通过加深模型深度以提升推理能力:基于近期关于模型深度影响的研究,我们将 7B 模型通过复制冗余层的方式扩展到 10B 参数模型,并继续使用 2TT 高质量数据进行预训练。这产生了 Falcon3-10B-Base 模型,在 13B 参数以下的模型中达到了最先进的零样本和少样本性能。知识蒸馏以优化小型模型:为了提供紧凑高效的替代方案,我们利用剪枝和知识蒸馏技术开发了 Falcon3-1B-Base 和 Falcon3-3B-Base 模型,使用了不到 100GT 的精选高质量数据,从而重新定义了预训练效率。
资源
在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.