Les-Audits-Affaires：首个全面的法国商业法律人工智能基准

社区文章发布于2025年6月25日

TL;DR：我们构建了legmlai/les-audits-affaires——首个证明人工智能在法国商法方面表现非常挣扎的基准。金融自然语言处理中的AI幻觉发生率高达41%，每年造成数十亿美元的损失。我们在9个法国商业法典中的2,670个测试用例表明，专业模型是唯一可行的解决方案。

当前人工智能的表现令人担忧

根据OpenAI自己的报告，其最新的推理系统在回答有关公众人物的问题时，o3模型的幻觉率高达33%，o4-mini模型更是惊人地达到48%。相比之下，谷歌的Gemini-2.0-Flash-001在2025年实现了行业领先的0.7%幻觉率，这证明只要方法得当，改进是可能的。

特别是在银行业，波士顿咨询公司最近的一项调查发现，只有25%的机构将这些能力融入了其战略计划。其余75%则在无果的试点项目上烧钱。

现实中的法庭灾难层出不穷

人工智能法律专家达米恩·夏洛丁（Damien Charlotin）追踪律师使用人工智能幻觉证据的法律判决。他的数据库详细记录了2025年5月发生的30多起此类事件。大型律所也未能幸免。

日期	律所/法院	错误	后果
2025年2月	Morgan & Morgan（1,000多名律师）	虚构与沃尔玛相关的案件	全公司紧急警告
2025年5月	K&L Gates（1,700名律师）	27处引用中9处有误	31,000美元制裁
2025年5月	Latham & Watkins	AI幻觉的专家报告	动议排除证据
2024年11月	德克萨斯联邦法院	不存在的案件	2,000美元罚款 + AI课程

来源：人工智能在案件备案中热衷于生成法律虚构内容，导致全国各地的法院在过去一年中至少七起案件中质疑或惩戒律师。

Les-Audits-Affaires：基准测试

我们建立了一个反映法国真实商业复杂性的基准。以下是具体做法：

2,670个真实世界测试用例

我们的400多个角色不是抽象的——它们是真实的商业场景

玛丽（Marie），34岁：里昂科技初创公司的首席财务官，处理研发税收抵免（CIR）、BSPCE股权期权、GDPR合规性
让-皮埃尔（Jean-Pierre），52岁：波尔多餐厅老板，面临增值税不规范问题（增值税不规范程度较高）
阿梅莉（Amélie），28岁：巴黎公司法律顾问，处理并购尽职调查、DORA合规性
菲利普（Philippe），45岁：银行经理，管理2024年开始的CESOP报告

覆盖9个基本法典

法典	测试用例	重点领域
金融法	350	银行监管、反洗钱/反恐怖融资、支付服务
商法	320	合同、公司设立、破产
税法 (CGI)	310	增值税、企业所得税、扣除
保险法	300	保单、索赔、经纪人法规
税务法	290	国际税收、转让定价
消费者法	290	GDPR、电子商务、担保
劳动法	280	合同、终止、福利
知识产权法	270	专利、商标、许可
采购法	260	公共招标、合规

5维评估

每个测试用例都评估了对企业真正重要的内容

真实案例：电子商务增值税合规性

场景：索菲（Sophie），电商经理，营收12万欧元，向德国和西班牙销售

正确答案:

行动：注册欧盟增值税，每月提交欧洲共同体销售清单申报表
期限：在收入达到10万欧元门槛后15天内
文件：增值税申报表、欧洲共同体销售清单、商品统计申报表
影响：征收20%增值税，每月申报成本200欧元
后果：750欧元罚款 + 未缴增值税每月0.4%利息

常见AI错误:

引用过时的3.5万欧元门槛（2025年已更改为10万欧元）
遗漏商品统计要求
虚构不存在的“简化季度申报”
使用错误税率计算罚款

为什么领域特定模型会胜出

证据是压倒性的。与基于原始互联网数据训练的模型相比，经过精心策划数据集训练的模型幻觉率降低了40%。

模型类型	训练数据	法律内容	幻觉率
通用LLM	13万亿个token	0.3%	41-75%
领域特定	5000亿个token	100%	5-15%
改进	数据量减少26倍	相关性提高333倍	性能提升88%

法国人工智能机遇

法国正在大力投资：微软本周早些时候宣布，将向法国的云和人工智能基础设施投资40亿欧元，到2025年底将为该国带来多达25,000个最先进的GPU。加上2018年每年约65亿欧元的成本，法国政府估计，从长远来看，这将使该国GDP增加0.8%，并通过研发税收抵免创造6万个就业岗位，基础设施已经到位。

目前缺乏的是能理解法国商法的模型。“准确性需要成本。有用性推动采用。”但当准确性可以避免750欧元的罚款、160亿欧元的税务调整和职业制裁时，准确性才是唯一重要的指标。

开始使用

# Load the benchmark
from datasets import load_dataset
dataset = load_dataset("legmlai/les-audits-affaires")

# Explore the data
print(f"Total cases: {len(dataset)}")
print(f"Example case: {dataset[0]}")

# Each case contains:
# - persona: business context and demographics
# - scenario: specific legal situation
# - ground_truth: correct answers for all 5 dimensions
# - legal_refs: articles from Légifrance

运行评估

git clone [github]/les-audits-evaluation-harness
cd les-audits-evaluation-harness
python evaluate.py --model your_model --output results.json

反污染措施

我们通过以下措施防止基准测试作弊：

开放管道：使用不同角色重新生成测试用例
跨LLM评估：GPT-4o生成，不同模型评估
实时更新：连接到当前的Légifrance数据
多样性：相同的法律，不同的商业背景

前进的道路

大多数金融机构尚未发布针对金融机构的人工智能法规，因为现有框架已经涵盖了大部分风险，但这种情况正在迅速改变。这是欧洲DORA法规出台的原因之一，该法规将于2025年1月生效。

参与研究的77%的企业担心人工智能幻觉，企业每年平均为捕捉和纠正人工智能幻觉花费每名员工14,200美元，市场迫切需要专业模型。

关于legml.ai：我们正在巴黎构建法国商法的专业人工智能模型。因为当合规性至关重要时，通用人工智能是不够的。

资源:

数据集：legmlai/les-audits-affaires
GitHub - 评估工具：les-audits-affaires-eval-harness
网站：legml.ai

基于louisbrulenaudet全面语料库中的法国法典构建。

社区

malhajar

文章作者 6月25日

cc: @clem @julien-c 🤗

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论