Les-Audits-Affaires:首个全面的法国商业法律人工智能基准
TL;DR:我们构建了
legmlai/les-audits-affaires
——首个证明人工智能在法国商法方面表现非常挣扎的基准。金融自然语言处理中的AI幻觉发生率高达41%,每年造成数十亿美元的损失。我们在9个法国商业法典中的2,670个测试用例表明,专业模型是唯一可行的解决方案。
当前人工智能的表现令人担忧
根据OpenAI自己的报告,其最新的推理系统在回答有关公众人物的问题时,o3模型的幻觉率高达33%,o4-mini模型更是惊人地达到48%。相比之下,谷歌的Gemini-2.0-Flash-001在2025年实现了行业领先的0.7%幻觉率,这证明只要方法得当,改进是可能的。
特别是在银行业,波士顿咨询公司最近的一项调查发现,只有25%的机构将这些能力融入了其战略计划。其余75%则在无果的试点项目上烧钱。
现实中的法庭灾难层出不穷
人工智能法律专家达米恩·夏洛丁(Damien Charlotin)追踪律师使用人工智能幻觉证据的法律判决。他的数据库详细记录了2025年5月发生的30多起此类事件。大型律所也未能幸免。
日期 | 律所/法院 | 错误 | 后果 |
---|---|---|---|
2025年2月 | Morgan & Morgan(1,000多名律师) | 虚构与沃尔玛相关的案件 | 全公司紧急警告 |
2025年5月 | K&L Gates(1,700名律师) | 27处引用中9处有误 | 31,000美元制裁 |
2025年5月 | Latham & Watkins | AI幻觉的专家报告 | 动议排除证据 |
2024年11月 | 德克萨斯联邦法院 | 不存在的案件 | 2,000美元罚款 + AI课程 |
来源:人工智能在案件备案中热衷于生成法律虚构内容,导致全国各地的法院在过去一年中至少七起案件中质疑或惩戒律师。
Les-Audits-Affaires:基准测试
我们建立了一个反映法国真实商业复杂性的基准。以下是具体做法:
2,670个真实世界测试用例
我们的400多个角色不是抽象的——它们是真实的商业场景
- 玛丽(Marie),34岁:里昂科技初创公司的首席财务官,处理研发税收抵免(CIR)、BSPCE股权期权、GDPR合规性
- 让-皮埃尔(Jean-Pierre),52岁:波尔多餐厅老板,面临增值税不规范问题(增值税不规范程度较高)
- 阿梅莉(Amélie),28岁:巴黎公司法律顾问,处理并购尽职调查、DORA合规性
- 菲利普(Philippe),45岁:银行经理,管理2024年开始的CESOP报告
覆盖9个基本法典
法典 | 测试用例 | 重点领域 |
---|---|---|
金融法 | 350 | 银行监管、反洗钱/反恐怖融资、支付服务 |
商法 | 320 | 合同、公司设立、破产 |
税法 (CGI) | 310 | 增值税、企业所得税、扣除 |
保险法 | 300 | 保单、索赔、经纪人法规 |
税务法 | 290 | 国际税收、转让定价 |
消费者法 | 290 | GDPR、电子商务、担保 |
劳动法 | 280 | 合同、终止、福利 |
知识产权法 | 270 | 专利、商标、许可 |
采购法 | 260 | 公共招标、合规 |
5维评估
每个测试用例都评估了对企业真正重要的内容
真实案例:电子商务增值税合规性
场景:索菲(Sophie),电商经理,营收12万欧元,向德国和西班牙销售
正确答案:
- 行动:注册欧盟增值税,每月提交欧洲共同体销售清单申报表
- 期限:在收入达到10万欧元门槛后15天内
- 文件:增值税申报表、欧洲共同体销售清单、商品统计申报表
- 影响:征收20%增值税,每月申报成本200欧元
- 后果:750欧元罚款 + 未缴增值税每月0.4%利息
常见AI错误:
- 引用过时的3.5万欧元门槛(2025年已更改为10万欧元)
- 遗漏商品统计要求
- 虚构不存在的“简化季度申报”
- 使用错误税率计算罚款
为什么领域特定模型会胜出
证据是压倒性的。与基于原始互联网数据训练的模型相比,经过精心策划数据集训练的模型幻觉率降低了40%。
模型类型 | 训练数据 | 法律内容 | 幻觉率 |
---|---|---|---|
通用LLM | 13万亿个token | 0.3% | 41-75% |
领域特定 | 5000亿个token | 100% | 5-15% |
改进 | 数据量减少26倍 | 相关性提高333倍 | 性能提升88% |
法国人工智能机遇
法国正在大力投资:微软本周早些时候宣布,将向法国的云和人工智能基础设施投资40亿欧元,到2025年底将为该国带来多达25,000个最先进的GPU。加上2018年每年约65亿欧元的成本,法国政府估计,从长远来看,这将使该国GDP增加0.8%,并通过研发税收抵免创造6万个就业岗位,基础设施已经到位。
目前缺乏的是能理解法国商法的模型。“准确性需要成本。有用性推动采用。”但当准确性可以避免750欧元的罚款、160亿欧元的税务调整和职业制裁时,准确性才是唯一重要的指标。
开始使用
# Load the benchmark
from datasets import load_dataset
dataset = load_dataset("legmlai/les-audits-affaires")
# Explore the data
print(f"Total cases: {len(dataset)}")
print(f"Example case: {dataset[0]}")
# Each case contains:
# - persona: business context and demographics
# - scenario: specific legal situation
# - ground_truth: correct answers for all 5 dimensions
# - legal_refs: articles from Légifrance
运行评估
git clone [github]/les-audits-evaluation-harness
cd les-audits-evaluation-harness
python evaluate.py --model your_model --output results.json
反污染措施
我们通过以下措施防止基准测试作弊:
- 开放管道:使用不同角色重新生成测试用例
- 跨LLM评估:GPT-4o生成,不同模型评估
- 实时更新:连接到当前的Légifrance数据
- 多样性:相同的法律,不同的商业背景
前进的道路
大多数金融机构尚未发布针对金融机构的人工智能法规,因为现有框架已经涵盖了大部分风险,但这种情况正在迅速改变。这是欧洲DORA法规出台的原因之一,该法规将于2025年1月生效。
参与研究的77%的企业担心人工智能幻觉,企业每年平均为捕捉和纠正人工智能幻觉花费每名员工14,200美元,市场迫切需要专业模型。
关于legml.ai:我们正在巴黎构建法国商法的专业人工智能模型。因为当合规性至关重要时,通用人工智能是不够的。
资源:
- 数据集:
legmlai/les-audits-affaires
- GitHub - 评估工具:
les-audits-affaires-eval-harness
- 网站:legml.ai
基于louisbrulenaudet全面语料库中的法国法典构建。