Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Falcon3

概述

Falcon3 代表了从之前版本演进的自然发展，强调扩展模型的科学、数学和代码能力。此版本包括五个基础模型：Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在开发这些模型时，我们融入了多项关键创新，旨在提高模型性能，同时降低训练成本。

一次预训练：我们使用 2048 个 H100 GPU 芯片对 7B 模型进行了单次大规模预训练，利用了 14 万亿个令牌，这些令牌包含网络、代码、科学、技术、工程和数学（STEM）以及精选的高质量多语言数据。深度上采样以改进推理：基于近期关于模型深度影响的研究，我们通过复制冗余层并将高质量数据继续预训练 2TT，将 7B 模型上采样到 10B 参数模型。这产生了 Falcon3-10B-Base，它在 13B 参数以下的模型中实现了最先进的零样本和少样本性能。知识蒸馏以获得更好的微型模型：为了提供紧凑高效的替代方案，我们通过利用剪枝和知识蒸馏技术，使用不到 100GT 的精选高质量数据，开发了 Falcon3-1B-Base 和 Falcon3-3B-Base，从而重新定义了预训练效率。

资源

< > 在 GitHub 上更新

←Falcon FalconH1→