🚨 为什么预训练您的模型可能会损害性能
Théo (又名 RDTvlokip)
🔗 github.com/RDTvlokip 在 Hugging Face 上转载
2025 年 7 月 13 日
摘要
注意力引导字节对编码(AG-BPE)通过使用基于 Transformer 的 `ContextAnalyzer` 来指导合并决策,从而增强了子词分词。尽管深度学习中的传统观点认为在掩码语言建模(MLM)任务上预训练指导模块应该能提高语言理解能力和分词器性能,但本文通过实证分析对这一假设提出了挑战。我们比较了两种训练方法:在 BPE 处理之前预训练 `ContextAnalyzer`(AG-BPEv5)与在合并过程中并发训练(AG-BPEv4)。我们的发现表明,预训练策略尽管验证损失较低,但却导致了灾难性的性能下降,压缩率降低了 45%,并且分词结果不稳定。我们将根本原因确定为**表征漂移**现象,即在初始字符级词汇表上训练的模型随着 BPE 创建新的标记关系而变得过时。这项工作表明,对于动态词汇生成任务,上下文模型必须与词汇创建过程同步演进,以保持指导的相关性和有效性。
引言
自然语言处理的演进已由分词策略的进步根本性地塑造,其中字节对编码(BPE)作为子词分割的基石技术应运而生。我们的注意力引导 BPE(AG-BPE)框架通过引入基于 Transformer 的 `ContextAnalyzer` 来为传统的统计 BPE 合并过程提供语义指导,从而代表了一项重大进展。
本研究中解决的核心问题是上下文指导组件的最佳训练策略。借鉴现代 NLP 中已建立的范式,即在掩码语言建模(MLM)等自监督任务上进行预训练可以提高模型性能,我们最初假设预训练 `ContextAnalyzer` 将产生更优异的分词结果。
然而,我们全面的实验分析揭示了一个反直觉的发现:与并发训练方法相比,在字符级语料库上预训练指导模块会导致性能显著下降。本文将介绍我们对这种现象的调查,该现象被称为**预训练陷阱**,并提供了并发训练对于动态词汇生成任务至关重要的理论和经验证据。
我们的贡献包括:
- 对 AG-BPE 系统中预训练陷阱的实证演示
- 表征漂移现象的理论分析
- 并发训练和预训练方法之间的性能比较
- 动态词汇环境中上下文模型训练的指导方针
方法
实验设计
为了隔离训练方法对分词器性能的影响,我们实施了两种不同的训练方案,同时保持了相同的超参数、模型架构和数据集规范。两种方法都使用了我们 302MB 的法文语料库,目标词汇量为 16,000 个标记。
AG-BPEv4:并发训练方法
并发训练方法用随机权重初始化 `ContextAnalyzer`,并在整个 BPE 合并过程中迭代更新。训练协议遵循以下步骤:
并发训练协议
- 使用随机权重初始化 `ContextAnalyzer`
- 使用字符级词汇表初始化语料库
- 对于每批 500 次合并
- 将 BPE 合并应用于当前词汇表
- 使用新的标记表示更新语料库
- 在更新后的语料库上训练 `ContextAnalyzer`
- 为下一个合并候选项生成注意力分数
这种方法确保上下文模型与词汇表同步演进,在标记被创建并集成到语料库中时学习它们之间的关系。
AG-BPEv5:先验预训练方法
预训练方法在 BPE 处理开始前引入了一个专门的预训练阶段。
预训练协议
预训练阶段
- 使用随机权重初始化 `ContextAnalyzer`
- 使用字符级词汇表进行 MLM 任务训练
- 持续训练直到收敛(验证损失 < 0.21)
指导阶段: 4. 冻结 `ContextAnalyzer` 权重 5. 在预训练的注意力分数指导下应用 BPE 合并 6. 完成词汇生成,不更新模型
预训练阶段取得了明显的成功,验证损失达到 0.2094,表明其具有强大的字符级模式识别能力。
结果与分析
定量性能比较
下表展示了两种训练方法的综合性能指标。结果表明,尽管预训练阶段取得了明显的成功,但性能却出现了巨大的差异。
指标 | AG-BPEv4(并发) | AG-BPEv5(预训练) |
---|---|---|
词汇量大小 | 16,000 | 16,000 |
压缩率 | 3.77 倍 | 2.08 倍 |
平均标记长度 | 3.26 | 1.79 |
编码速度(毫秒) | 1.84 | 1.88 |
解码速度(毫秒) | 0.03 | 0.05 |
预训练模型压缩率灾难性地降低了 45%,表明其在标记生成方面存在根本性效率低下。平均标记长度从 3.26 个字符减少到 1.79 个字符,这表明模型无法学习有意义的、语言上连贯的子词单元。
定性分析:分词模式
检查具体的分词示例揭示了性能下降的根本原因。考虑“L'intelligence artificielle”的分词:
AG-BPEv4(并发):
L' | in | telligence | ar | tificielle
AG-BPEv5(预训练):
L' | int | ell | ig | ence | ar | tif | ic | i | elle
并发方法产生了符合语言学意义且尊重形态边界的片段,而预训练模型则生成了碎片化的、效率低下的分词模式,这些模式优先考虑字符级关系而非语义连贯性。
表征漂移现象
我们的分析确定**表征漂移**是预训练失败的根本原因。这种现象通过以下序列发生:
- 预训练模型在字符级模式识别方面积累了专业知识
- BPE 合并通过创建新标记从根本上改变了符号环境
- 预训练模型的知识随着原始字符序列被替换而变得过时
- 随着模型遇到不熟悉的标记组合,指导决策变得越来越不稳定
Pre-training BPE merges Post-merge
┌──────────────┐ ────→ ┌─────────────┐
│ Character- │ │ Token-level│
│ level │ │ vocabulary │
│ patterns │ │ │
└──────────────┘ └─────────────┘
│ │
└─────── Representational Mismatch ──────┘
讨论
理论含义
我们的研究结果挑战了预训练范式在自然语言处理中的普遍适用性。虽然预训练已被证明对静态词汇任务非常有效,但我们的研究表明,动态词汇生成需要根本不同的训练方法。关键的洞察是,上下文指导模型必须与其所指导的环境同步演进。
实际考量
其影响超越了分词,延伸到其他动态系统优化问题。在不断演进的环境中部署上下文指导时,实践者必须考虑:
- 指导模型训练与系统演进的时间对齐
- 快速变化背景下知识过时的可能性
- 初始模型复杂性与适应能力之间的权衡
未来研究方向
这项工作引出了几个未来的研究方向:
- 开发预测词汇演变的自适应预训练策略
- 研究上下文指导系统的迁移学习方法
- 探索这些发现对其他动态优化领域的适用性
- 开发衡量演进系统中表征漂移的指标
结论
本研究证实,由于表征漂移现象,为动态词汇生成任务预训练上下文指导模型可能导致灾难性的性能下降。我们对 AG-BPE 系统的实证分析表明,并发训练方法虽然看似不那么复杂,但通过保持指导模型与演进词汇表之间的一致性,提供了卓越的分词性能。
更广泛的含义超越了分词,挑战了关于动态环境中最佳训练策略的假设。随着 NLP 系统变得越来越复杂和自适应,了解何时以及如何应用预训练范式对于实现最佳性能至关重要。
我们成功的 AG-BPEv4 实施证明,允许上下文分析器与词汇表演进同步学习不仅有益,而且对于保持指导的有效性至关重要。这项工作为在动态 NLP 系统中开发更复杂的自适应训练策略奠定了基础。
致谢
作者感谢 Nepsod 学院和 LMC 合作伙在本次研究中提供的支持和反馈。特别感谢 InfiniGPT 项目的贡献者,他们提供了计算资源和分词框架,使这项研究得以实现。
引用
如果您使用此作品,请按以下方式引用:
@misc{charlet_2025_agbpe_research,
author = {Charlet, Théo},
title = {The Pre-Training Pitfall : Why Contextual Guidance for BPE Must Be Trained Concurrently, Not A-Priori},
month = jul,
year = 2025,
doi = {10.5281/zenodo.15874092},
url = {https://doi.org/10.5281/zenodo.15874092}
}
🔗 DOI: 10.5281/zenodo.15874092
🔗 github.com/RDTvlokip
参考文献
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 4171-4186。
Sennrich, R., Haddow, B., & Birch, A. (2015). Neural Machine Translation of Rare Words with Subword Units. arXiv preprint arXiv:1508.07909。
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog, 1(8), 9。
Rogers, A., Kovaleva, O., & Rumshisky, A. (2020). A Primer on Neural Network Models for Natural Language Processing. Journal of Artificial Intelligence Research, 57, 615-686。
Kudo, T., & Richardson, J. (2018). SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 66-71。