AI 记账员：通过监督式微调增强会计文档理解

社区文章发布于 2025 年 2 月 6 日

摘要

1. 引言

2. 数据集
2.1 数据收集

2.2 标注过程

2.3 提示策略

3. 方法论
3.1 低秩适应 (LoRA)

3.2 监督式微调 (SFT)

4. 结果
4.1 模型性能分析

4.2 比较分析

5. 讨论
5.1 技术进步

5.2 当前限制

6. 结论

摘要

我们推出了 Ark 系列，这是一组专门针对会计和财务文档理解进行微调的大型视觉语言模型 (LVLM)。通过广泛的实验，我们证明了在文档理解、数据提取和文档智能方面，尤其是在记账任务上，都有显著的改进。我们的模型在多个记账专用基准测试中取得了最先进的性能，同时保持了高准确性。这是朝着构建 AI 记账员迈出的第一步，我们将开始委派人工数据录入和分类账编码任务，然后全面过渡到其他端到端运营和行政任务，例如文档追溯和检索，完成批量编辑和批量发布功能，以减少摩擦和人工干预。

1. 引言

自动化记账流程需要一个强大的系统，不仅能够高精度地理解和处理财务文档，而且能够减少记账工作流程中人工干预的需求。本出版物重点介绍 Ark 在人工数据录入和分类账编码任务方面的训练。尽管现有的 LVLM 在通用文档理解方面显示出前景，但会计文档的专业性质带来了独特的挑战，需要领域特定的优化。

2. 数据集

2.1 数据收集

我们的数据集包含两个主要来源：

来自专业会计师标注的历史记录
来自内部和外部会计专家的新标注

数据集包括：

发票处理样本
收据分析样本
个性化分类账数据

2.2 标注过程

专家标注通过以下方式收集：

AI 标注 (40%)
内部会计和记账专家 (40%)
外包会计专家 (20%)

2.3 提示策略

我们采用思维链 (CoT) 和思维树 (ToT) 提示方法来指导结构化提取、分类和决策过程。

思维链 (CoT)：用于需要顺序推理的任务，包括增值税计算、算术检查和会计文档类型分类。
思维树 (ToT)：用于模棱两可或分层任务，例如从嵌套表中提取行项目、解决供应商差异以及多页单文档上下文。

[图 1：文档处理流程 (CoT + ToT)]

3. 方法论

[图 2：训练管道图]

3.1 低秩适应 (LoRA)

配置

骨干网络 (视觉编码器)：R-16
LLM：R-16

参数效率

trainable params: 6,291,456 || trainable%: 2.0275153367147256

3.2 监督式微调 (SFT)

训练参数

模型名称	参数大小	学习率	批量大小	梯度累积步长	轮次	预热比率	权重衰减
Ark I	8B	2e-5	1	4	5	0.03	0.05
Ark I	8B	5e-5	1	2	8	0.05	0.03
Ark I	8B	4.5e-5	1	2	6	0.04	0.04
Ark II	26B	1e-6	1	2	6	0.04	0.04
Ark II	26B	5e-5	1	2	6	0.05	0.03

[图 3：损失收敛图]

4. 结果

[图 4：按类别划分的模型性能]

4.1 模型性能分析

Ark 系列在关键指标上展现了渐进式改进，如我们的排行榜所示：

Ark I (8B)：确立了基线性能，会计文档分类准确率为 64.1%。
Ark II (26B)：实现了 71.8% 的准确率，增强了对复杂会计文档结构的理解。

4.2 比较分析

文档理解：在会计文档理解方面，比 GPT-4o 提升了 15%。
处理速度：文档处理速度比人工基准快 2.5 倍。

5. 讨论

5.1 技术进步

结果显示在以下方面取得了显著改进：

会计文档处理
- 增强了交易分类准确性
- 自适应文档类型识别
工作流集成
- 简化了处理管道
- 多文档上下文理解

5.2 当前限制

复杂的多页多文档处理
交叉引用验证

6. 结论

Ark 系列证明了 SFT 在专业文档理解任务中的有效性。随着 Ark III 的推出，未来的工作将侧重于：

高级强化学习集成
增强工作流自动化

本技术报告为下一代自主记账系统奠定了基础，计划中的开发旨在通过复杂的强化学习技术和工作流自动化不断超越当前的性能基准。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论