引入关键令牌搜索（PTS）：在大型语言模型训练中定位关键决策点

社区文章发布于2025年5月17日

概览

问题

PTS 的工作原理

发布资源
实现

数据集

模型

用例示例

未来方向

参与进来

概述

今天我很高兴发布 关键令牌搜索 (PTS)，这是一种用于识别和优化语言模型生成中关键决策点的新技术。受微软最近的 Phi-4 论文的启发，PTS 有助于识别那些显著改变成功生成概率的特定“关键令牌”。

传统的直接偏好优化 (DPO) 在从偏好学习时平等对待所有令牌。然而，在许多复杂的推理任务中，生成的成功往往取决于少数几个关键决策。例如，在解决数学问题时，选择“交叉相乘”而不是“两边同时乘以”可能会显著影响模型是否能得出正确答案，即使两种方法在数学上都是有效的。

PTS 使用二分搜索算法来识别导致生成成功概率显著变化的令牌

这种有针对性的方法比标准 DPO 具有多项优势

我们的 GitHub 仓库包含

我们正在发布多个针对不同领域的 PTS 生成数据集

在微调模型以解决数学问题时，传统方法可能会提供一个完整的正确解决方案作为偏好示例。而使用 PTS，我们可以识别出关键决策在于选择分解二次方程而不是配方。通过仅针对该关键令牌创建偏好对，我们提供了更清晰的学习信号。

我们正在积极探索

我们欢迎社区贡献！在您自己的任务中尝试 PTS，试验我们的数据集，或为代码库做出贡献。

如果您有任何问题或反馈，请在评论中告诉我！

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论