Les-Audits-Affaires:首个全面的法国商业法律人工智能基准

社区文章 发布于2025年6月25日

TL;DR:我们构建了legmlai/les-audits-affaires——首个证明人工智能在法国商法方面表现非常挣扎的基准。金融自然语言处理中的AI幻觉发生率高达41%,每年造成数十亿美元的损失。我们在9个法国商业法典中的2,670个测试用例表明,专业模型是唯一可行的解决方案。


当前人工智能的表现令人担忧

根据OpenAI自己的报告,其最新的推理系统在回答有关公众人物的问题时,o3模型的幻觉率高达33%,o4-mini模型更是惊人地达到48%。相比之下,谷歌的Gemini-2.0-Flash-001在2025年实现了行业领先的0.7%幻觉率,这证明只要方法得当,改进是可能的。

特别是在银行业,波士顿咨询公司最近的一项调查发现,只有25%的机构将这些能力融入了其战略计划。其余75%则在无果的试点项目上烧钱。

现实中的法庭灾难层出不穷

人工智能法律专家达米恩·夏洛丁(Damien Charlotin)追踪律师使用人工智能幻觉证据的法律判决。他的数据库详细记录了2025年5月发生的30多起此类事件。大型律所也未能幸免。

日期 律所/法院 错误 后果
2025年2月 Morgan & Morgan(1,000多名律师) 虚构与沃尔玛相关的案件 全公司紧急警告
2025年5月 K&L Gates(1,700名律师) 27处引用中9处有误 31,000美元制裁
2025年5月 Latham & Watkins AI幻觉的专家报告 动议排除证据
2024年11月 德克萨斯联邦法院 不存在的案件 2,000美元罚款 + AI课程

来源:人工智能在案件备案中热衷于生成法律虚构内容,导致全国各地的法院在过去一年中至少七起案件中质疑或惩戒律师。

Les-Audits-Affaires:基准测试

我们建立了一个反映法国真实商业复杂性的基准。以下是具体做法:

2,670个真实世界测试用例

image/png

我们的400多个角色不是抽象的——它们是真实的商业场景

  • 玛丽(Marie),34岁:里昂科技初创公司的首席财务官,处理研发税收抵免(CIR)、BSPCE股权期权、GDPR合规性
  • 让-皮埃尔(Jean-Pierre),52岁:波尔多餐厅老板,面临增值税不规范问题(增值税不规范程度较高)
  • 阿梅莉(Amélie),28岁:巴黎公司法律顾问,处理并购尽职调查、DORA合规性
  • 菲利普(Philippe),45岁:银行经理,管理2024年开始的CESOP报告

覆盖9个基本法典

法典 测试用例 重点领域
金融法 350 银行监管、反洗钱/反恐怖融资、支付服务
商法 320 合同、公司设立、破产
税法 (CGI) 310 增值税、企业所得税、扣除
保险法 300 保单、索赔、经纪人法规
税务法 290 国际税收、转让定价
消费者法 290 GDPR、电子商务、担保
劳动法 280 合同、终止、福利
知识产权法 270 专利、商标、许可
采购法 260 公共招标、合规

5维评估

每个测试用例都评估了对企业真正重要的内容

image/png

真实案例:电子商务增值税合规性

场景:索菲(Sophie),电商经理,营收12万欧元,向德国和西班牙销售

正确答案:

  • 行动:注册欧盟增值税,每月提交欧洲共同体销售清单申报表
  • 期限:在收入达到10万欧元门槛后15天内
  • 文件:增值税申报表、欧洲共同体销售清单、商品统计申报表
  • 影响:征收20%增值税,每月申报成本200欧元
  • 后果:750欧元罚款 + 未缴增值税每月0.4%利息

常见AI错误:

  • 引用过时的3.5万欧元门槛(2025年已更改为10万欧元)
  • 遗漏商品统计要求
  • 虚构不存在的“简化季度申报”
  • 使用错误税率计算罚款

为什么领域特定模型会胜出

证据是压倒性的。与基于原始互联网数据训练的模型相比,经过精心策划数据集训练的模型幻觉率降低了40%。

模型类型 训练数据 法律内容 幻觉率
通用LLM 13万亿个token 0.3% 41-75%
领域特定 5000亿个token 100% 5-15%
改进 数据量减少26倍 相关性提高333倍 性能提升88%

法国人工智能机遇

法国正在大力投资:微软本周早些时候宣布,将向法国的云和人工智能基础设施投资40亿欧元,到2025年底将为该国带来多达25,000个最先进的GPU。加上2018年每年约65亿欧元的成本,法国政府估计,从长远来看,这将使该国GDP增加0.8%,并通过研发税收抵免创造6万个就业岗位,基础设施已经到位。

目前缺乏的是能理解法国商法的模型。“准确性需要成本。有用性推动采用。”但当准确性可以避免750欧元的罚款、160亿欧元的税务调整和职业制裁时,准确性才是唯一重要的指标。

开始使用

# Load the benchmark
from datasets import load_dataset
dataset = load_dataset("legmlai/les-audits-affaires")

# Explore the data
print(f"Total cases: {len(dataset)}")
print(f"Example case: {dataset[0]}")

# Each case contains:
# - persona: business context and demographics
# - scenario: specific legal situation
# - ground_truth: correct answers for all 5 dimensions
# - legal_refs: articles from Légifrance

运行评估

git clone [github]/les-audits-evaluation-harness
cd les-audits-evaluation-harness
python evaluate.py --model your_model --output results.json

反污染措施

我们通过以下措施防止基准测试作弊:

  1. 开放管道:使用不同角色重新生成测试用例
  2. 跨LLM评估:GPT-4o生成,不同模型评估
  3. 实时更新:连接到当前的Légifrance数据
  4. 多样性:相同的法律,不同的商业背景

前进的道路

大多数金融机构尚未发布针对金融机构的人工智能法规,因为现有框架已经涵盖了大部分风险,但这种情况正在迅速改变。这是欧洲DORA法规出台的原因之一,该法规将于2025年1月生效。

参与研究的77%的企业担心人工智能幻觉,企业每年平均为捕捉和纠正人工智能幻觉花费每名员工14,200美元,市场迫切需要专业模型。


关于legml.ai:我们正在巴黎构建法国商法的专业人工智能模型。因为当合规性至关重要时,通用人工智能是不够的。

资源:

基于louisbrulenaudet全面语料库中的法国法典构建。

社区

文章作者

cc: @clem @julien-c 🤗

注册登录 发表评论