AG-BPE:高级基准测试与数据集改进
Théo (又名 RDTvlokip)
🔗 github.com/RDTvlokip
Hugging Face上的再版
2025年7月4日
原始出版
🔗 Zenodo:10.5281/zenodo.15806375
摘要
标准子词分词方法如字节对编码(BPE)是现代语言模型的基础,但它们纯粹基于统计频率进行操作,忽略了所创建词元的语义连贯性。这可能导致次优的分割,将有意义的形态单位拆开。我们引入了注意力引导的BPE(AG-BPE),这是一种通过结合语义感知引导机制来增强BPE算法的新方法。AG-BPE的合并决策不再仅仅依赖于频率,而是由结合了共现统计和来自轻量级Transformer编码器的上下文注意力得分的混合得分来指导。通过与GPT-2、BERT和T5等标准分词器的基准测试,我们证明了AG-BPE在仅164 MB的适度数据集上进行训练,其压缩比与行业标准相当,同时使用的词汇量却小了4倍。它还展现出超过30倍的解码速度,并在现代多语言文本上表现出卓越的鲁棒性。定性分析揭示了它识别基本形态单位的独特能力,为创建更具可解释性和效率的词汇表提供了有希望的方向。
引言
大型语言模型(LLMs)的性能关键取决于其初始的分词阶段。主流的方法,字节对编码(BPE)及其变体,通过迭代合并最频繁的词元对来构建词汇表。尽管计算效率高,但这种纯粹的统计方法是“语义盲”的,常常会将有意义的语素打碎(例如,将“intelligently”拆分成intelligent
和ly
)。
这一限制促使了两个主要研究方向:无分词模型,如CANINE,其计算开销显著;以及复杂的端到端分词模型。
在这项工作中,我们提出了第三种方法:一种既保留BPE效率又注入语义智能的优雅折衷方案。我们引入了**注意力引导的BPE(AG-BPE)**。我们的主要贡献是一个用于合并决策的混合评分机制
MergeScore(p) = Freq(p) + λ · AttentionScore(p)
其中,一对词元的得分是其频率和从轻量级Transformer获得的上下文AttentionScore
的函数。这个系统倾向于同时频繁且语义连贯的合并。
我们的贡献包括:
- 一种将上下文注意力整合到BPE合并过程中的新型AG-BPE算法。
- 一项全面的基准测试,证明AG-BPE在压缩方面具有竞争力,同时在解码速度和鲁棒性方面表现更优。
- 证据表明,我们的方法,在适度的数据集上训练,可以生成形态上更细粒度且更高效的词汇表。
相关工作
标准子词分词: BPE算法是GPT-2和BERT等模型的基础。它们对频率统计的依赖要求大规模的训练语料库。
替代方法: 像CANINE这样的“无分词器”模型提供了灵活性,但计算成本很高。AG-BPE 的不同之处在于它增强了经过验证的BPE框架,而不是取而代之。
形态感知分词: Morfessor等方法通常需要特定语言的规则。AG-BPE通过注意力机制隐式学习这些模式,使其更具适应性。
注意力引导的BPE (AG-BPE)
架构设计
我们方法的核心是一个轻量级的Transformer编码器,即ContextAnalyzer
。它为每个字符计算上下文嵌入,其自注意力得分捕捉学习到的关系,表明强烈的语义或句法关联。
我们实验中使用的架构包括
- 4个Transformer层,每个层有8个注意力头
- 隐藏维度为768
- 上下文窗口为512个词元
混合合并评分
在训练过程中,ContextAnalyzer
会定期为语料库样本中所有相邻字符对生成注意力得分。最终的合并得分是字符对频率及其聚合注意力得分的加权和,优先考虑那些既频繁又语义连贯的合并。
训练与实现
AG-BPE作为预处理步骤一次性训练。尽管需要GPU加速,但该过程仍然高效。我们的模型在单个NVIDIA GeForce GTX 1080 Ti上用大约2小时在**164 MB的本地法语数据集**上进行了训练。这表明,无需大规模的TB级数据即可构建复杂的词汇表。
实验与结果
我们使用行业标准分词器对AG-BPE进行了基准测试,以评估其性能。
实验设置
- 我们的模型 (AG-BPE): 在一个164 MB的法语语料库上训练,收敛到12,000个词元的词汇表。
- 基线: GPT-2(5万词汇)、BERT-base-uncased(3万词汇)和T5-base(3.2万词汇)。
- 测试语料库: 包含法语、英语、韩语、数学符号和代码的多种文本样本。
定量分析
定量结果突出显示了AG-BPE卓越的效率和性能
分词器 | 词汇量 | 压缩 | 平均长度 | 解码速度(毫秒) | 硬 OOV |
---|---|---|---|---|---|
AG-BPE(我们) | 12,000 | 3.57× | 3.08 | 0.02 | 0 |
BERT-base | 30,522 | 3.26倍 | 2.82 | 0.92 | 0 |
T5-base | 32,100 | 3.60倍 | 3.61 | 0.65 | 0 |
GPT-2 | 50,257 | 2.91倍 | 2.65 | 0.92 | 0 |
结果显示AG-BPE具有明显的优势
- 压缩比: AG-BPE的压缩比达到3.57倍,超越BERT和GPT-2,并与T5相媲美,尽管其词汇量小了2.5倍到4倍。
- 解码速度: AG-BPE的解码速度为0.02ms,比所有基线模型快30倍以上,这对于生成式应用来说是一个关键优势。
- 鲁棒性: AG-BPE在困难的多语言测试句子上实现了零词汇外(OOV)词元的完美得分,证明了其处理现代多样化文本的能力,而其他模型则在此方面失败。
定性分析
定性分析揭示了AG-BPE独特的形态感知能力。我们对两个句子进行了测试。
首先,对于复杂的法语句子“L'anticonstitutionnalité... fut passionnément débattue...”,AG-BPE提供了更优的形态分解:
- AG-BPE:
... | gouvernement | ale | ... | passion | né | ment | ...
- BERT:
... | go | ##uve | ##rne | ##mental | ##e | ...| passion | ##nem | ##ent | ...
其次,对于一个简单的英语句子,尽管其训练数据中没有英语,AG-BPE仍展现出卓越的零样本泛化能力:
- AG-BPE:
Wh | at | are | you | do | ing | ton | ight | ?
- GPT-2:
What | Ġare | Ġyou | Ġdoing | Ġtonight | Ġ?
AG-BPE正确地分离出英语动名词后缀-ing
,证明它学习了基本的语言原理,而不仅仅是记忆特定语言的模式。
讨论
主要优势
- 高效率: 以显著更紧凑的词汇量实现具有竞争力的压缩。
- 卓越的解码速度: 快一个数量级,非常适合生成任务。
- 形态智能: 自然识别语言结构,从而产生更具可解释性和组合性的词元。
- 数据高效且鲁棒: 从适度的数据集构建高质量的现代词汇表。
局限性
- 训练开销: 初始训练需要GPU资源,并且比纯统计BPE更复杂。
- 超参数调整: 混合评分中的 λ 权重是一个需要调整的关键参数。
结论
我们提出了注意力引导的BPE(AG-BPE),这是一种将语义引导集成到BPE框架中的新型分词方法。我们的实验表明,这种方法在适度的数据集(164 MB)上进行训练,能够生成高效、鲁棒且形态感知的词汇表,其关键指标媲美甚至超越行业标准。
AG-BPE证明了智能架构设计可以比蛮力数据扩展更有效。它在性能、可解释性和工程实用性之间取得了引人注目的平衡,为实现更高效和更具语言感知能力的语言模型提供了途径。
引用
如果您使用了这项工作,请引用原始出版物
@misc{charlet_2025_agbpe_v2,
author = {Charlet, Théo},
title = {AG-BPE: Advanced Benchmarking and Dataset Improvements},
month = jan,
year = 2025,
doi = {10.5281/zenodo.15806375},
url = {https://doi.org/10.5281/zenodo.15806375}
}
🔗 原始出版物 DOI:10.5281/zenodo.15806375
🔗 github.com/RDTvlokip
参考文献
Sennrich, R., Haddow, B., & Birch, A. (2016)。使用子词单元的神经机器翻译罕见词。ACL。
Kudo, T., & Richardson, J. (2018)。SentencePiece:一种用于神经文本处理的简单且独立于语言的子词分词器和反分词器。EMNLP。
Schuster, M., & Nakajima, K. (2012)。日语和韩语语音搜索。ICASSP。
Clark, J. H., Garrette, D., Turc, I., & Wieting, J. (2021)。CANINE:预训练高效的无分词器编码器用于语言表示。TACL。
Radford, A., 等。(2019)。语言模型是无监督多任务学习者。OpenAI 技术报告。
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019)。BERT:用于语言理解的深度双向Transformer预训练。NAACL。
Xue, L., 等。(2022)。ByT5:通过预训练的字节到字节模型迈向无词元未来。TACL。
Creutz, M., & Lagus, K. (2007)。用于词素分割和形态学习的无监督模型。ACM Transactions on Speech and Language Processing。