Banque des Territoires (CDC Group) x Polyconseil x Hugging Face:通过主权数据解决方案加强一项法国重大环境计划
目录
- 英文案例研究 - Banque des Territoires (CDC Group) x Polyconseil x Hugging Face:通过主权数据解决方案加强一项法国重大环境计划
- 法文案例研究 - Banque des Territoires (Groupe CDC) x Polyconseil x Hugging Face:通过主权数据解决方案改善一项法国重大环境计划
执行摘要
Banque des Territoires(法国信托局集团的一部分)、Polyconseil 和 Hugging Face 于今年一月启动的合作,展示了将生成式 AI 的潜力与数据主权的紧迫需求相结合的可能性。
随着项目第一阶段的刚刚完成,所开发的工具最终旨在支持法国学校环境改造的国家战略。具体而言,该解决方案旨在优化 Banque des Territoires 的 EduRénov 计划的支持框架,该计划专门用于 10,000 个公共学校设施(托儿所、小学/中学/高中和大学)的生态改造。
本文分享了以下方面成功协同开发的一些关键见解:
- Banque des Territoires 贷款部门的数据科学团队,以及 EduRénov 计划总监;
- Polyconseil 的多学科团队,包括开发人员、DevOps 和产品经理;
- Hugging Face 在机器学习和 AI 解决方案部署方面的专家。
RAG 助力实现环境目标
由 Banque des Territoires (BdT) 发起的 EduRénov 是法国生态和能源转型战略中的一项旗舰计划。它旨在简化、支持和资助公共学校建筑的能源改造。其雄心体现在富有挑战性的目标上:在 5 年内协助 10,000 个从托儿所到大学的改造项目——占全国基础设施总量的 20%——实现 40% 的能源节约。Banque des Territoires 调动了前所未有的资源来实现这一目标:20 亿欧元用于资助工程的贷款和 5000 万欧元用于前期工程。仅一年时间,该计划就签署了近 2,000 个项目,但目标是进一步扩大。正如项目总监 Nicolas Turcat 强调的那样:
EduRénov 已经找到了它的项目和巡航速度;现在我们将加强与地方当局的关系质量,同时寻求许多新项目。我们与 Polyconseil 和 Hugging Face 有一个共同的信念:生态转型的挑战将通过扩大我们的行动来赢得胜利。
EduRénov 计划的成功涉及 Banque des Territoires、领导该计划的 Caisse des Dépôts Group (CDC) 专家与拥有相关建筑的社区之间的大量交流——特别是电子邮件。这些互动至关重要,但特别耗时且重复。然而,这些电子邮件的回复依赖于所有 BdT 专家共享的大量文档。因此,采用检索增强生成(RAG)解决方案来促进这些交流是特别合适的。
自 ChatGPT 推出以来,生成式 AI 越来越受到关注,许多公司都对利用商业 API 通过 LLM 利用其数据的 RAG 系统感兴趣。由于数据敏感性和战略主权问题,公共部门表现出更为谨慎的热情。
在此背景下,LLM 和开源技术生态系统具有显著优势,尤其是在其通用性能赶上目前领先的专有解决方案的情况下。因此,CDC 围绕 EduRénov 计划启动了一项试点数据转换项目,该项目因其运营关键性和潜在影响而被选中,并提出了一个坚定不移的条件:确保所使用的计算服务和模型的自主权。
工业化同时确保性能和主权
在项目启动之前,CDC 团队尝试了不同的模型和框架,特别是使用了 Hugging Face 提供的开源解决方案(Text Generation Inference、Transformers、Sentence Transformers、Tokenizers 等)。这些测试验证了 RAG 方法的潜力。因此,CDC 希望开发一个安全的应用程序,以提高 BdT 对社区支持的响应能力。
鉴于法国信托局(CDC)在法国公共生态系统中的地位,以及需要确保所处理数据的解决方案的主权和安全,CDC 选择了由 Polyconseil 和 Hugging Face 组成的法国联盟。除了各自的技术专长,这种合作的互补性被认为特别适合项目的挑战。
Polyconseil 是一家技术公司,通过敏捷方法在技术密集型项目的每个阶段提供数字创新专业知识。从大型企业到初创公司,Polyconseil 与各行各业的客户合作,包括 ArianeGroup、Canal+、法国文化部、SNCF 和 FDJ。Polyconseil 获得法国服务保障认证,在本地和云部署方面拥有成熟的专业知识(AWS 高级服务合作伙伴和 Amazon EKS 交付认证、GCP 云架构师、Kubernetes CKA 认证顾问等)。因此,该公司拥有部署大型数字项目所需的所有资源,团队由数据科学家、数据工程师、全栈/DevOps 开发人员、UI/UX 设计师、产品经理等组成。其生成式 AI 和 LLM 专业知识基于一个专门的实践:Alivia,通过 Alivia App,以及定制的支持和实施服务。
Hugging Face 成立于 2016 年,多年来已成为全球范围内使用最广泛的 AI 协作平台。最初专注于 Transformers 并出版了同名的著名开源库,Hugging Face 现在以其平台“Hub”享誉全球,该平台汇集了机器学习社区。Hugging Face 提供广泛采用的库、超过 750,000 个模型和超过 175,000 个即用型数据集。Hugging Face 在短短几年内已成为人工智能领域不可或缺的全球参与者。以实现机器学习民主化为使命,Hugging Face 现在拥有超过 200,000 名日常活跃用户和 15,000 家构建、训练和部署模型和数据集的公司。
模块化解决方案以应对动态行业
设想的解决方案包括一个供 BdT 员工使用的应用程序,该应用程序允许他们提交潜在客户发送的电子邮件,并根据 EduRénov 文档自动生成合适且有来源的项目回复。然后,代理可以在将回复发送给其对话者之前对其进行编辑。最后一步允许使用诸如人类反馈强化学习 (RLHF) 等方法,使回复与代理的期望保持一致。
下图对此进行了说明:
图表说明
- 客户通过现有渠道发送电子邮件请求。
- 该请求被传输到新的用户界面。
- 调用协调器,它根据电子邮件为检索器构建查询。
- 检索器模块从向量数据库中查找由其嵌入索引的相关上下文元素。
- 协调器构建一个包含检索到的上下文的提示,并仔细追溯文档来源,然后调用读取器模块。
- 读取器模块使用 LLM 生成回复建议,该建议通过用户界面返回给代理。
- 代理在界面中评估回复的质量,然后进行更正和验证。此步骤允许收集人类智能反馈。
- 回复被传输到消息系统进行发送。
- 回复被发送给客户,其中提到某些来源的引用。
- 客户可以查阅所用文档资源的公共存储库。
为实现整个过程,区分出四个主要子系统:
- 绿色:用于摄取文档库并为微调和 RLHF 构建高质量数据集的用户界面。
- 黑色:消息系统及其接口。
- 紫色:检索增强生成系统本身。
- 红色:整个管道以及微调和 RLHF 数据库。
关键成功因素
生成式 AI 领域的最新技术发展迅猛;因此,在项目期间修改模型而不显著影响已开发的解决方案至关重要。Polyconseil 设计了一个模块化架构,其中简单的配置更改即可调整 LLM、嵌入模型和检索方法。这使得数据科学家可以轻松测试不同的配置以优化解决方案的性能。最后,这意味着目前最佳的开放且主权的 LLM 解决方案可以相对简单地投入生产。
我们选择了一个 模块化单体,采用 六边形架构 来优化设计工作量。然而,由于 LLM 的高效评估需要在 GPU 上执行,我们将 LLM 调用外包到单体之外。我们使用了 Hugging Face 的 文本生成推理 (TGI),它提供了一个高性能、可配置的 Docker 化服务,用于托管 Hub 上任何可用的 LLM。
为确保数据独立性和主权,该解决方案主要依赖部署在法国云提供商 NumSpot 上的开源模型。选择该提供商是由于其 SecNumCloud 资质,并由 Outscale 的 IaaS 提供支持,Outscale 由达索系统公司创立,旨在应对其自身的安全挑战。
在开源解决方案方面,许多法国工具脱颖而出。其中,独角兽公司 Mistral AI 是其中之一,其 Mistral-7B-Instruct-v0.3 模型目前正在系统阅读器中使用。然而,其他更低调但更具针对性的项目也展现出解决我们挑战的巨大潜力,例如我们正在评估的 CroissantLLM。该模型是 CentraleSupélec 的 MICS 实验室 与 Illuin Technology 合作的成果。它们旨在提供一个针对法国数据量身定制的、符合道德、负责任且性能卓越的模型。
在组织方面,我们组建了一个单一的敏捷团队,采用灵活的 ScrumBan 方法论运作,并辅以每周对 AI 突破进行监控和培训的例行活动。后者由 Hugging Face 专家通过其
领导。这种结构促进了向 BdT 数据团队的技能和职责的顺利转移,同时确保在项目背景变化中进行定期和弹性的交付。因此,我们交付了解决方案的早期原始 MVP 以及定性和定量评估笔记本。为此,我们利用了专门评估生成式 AI 系统的开源库,例如 RAGAS。这成为我们迭代新功能和系统性能改进的基础。来自 Banque des Territoires 贷款部门 OLS 集团创新与战略总监 Hakim Lahlou 的最终寄语
我们很高兴能与这些在法国乃至国际上享有盛誉的专家们,在 Banque des Territoires 共同开发一项尖端、完全自主的数据解决方案。基于这个试点项目,这种方法开辟了一条新路径:这很可能就是未来公共政策在各地区部署的方式,以及国家生态和能源转型所需的融资。目前,这种方法是唯一能够实现大规模、高效和精确部署的方法。
您是否参与了一个涉及主权挑战的项目?您想开发一个利用 LLM 能力的解决方案吗?或者您只是对我们的服务或项目有疑问?请直接联系我们:alivia@polyconseil.fr。
如果您对贵公司的 Hugging Face 专家支持计划感兴趣,请点击此处联系我们——我们的销售团队将与您联系,讨论您的需求!
Banque des Territoires (Groupe CDC) x Polyconseil x Hugging Face:通过主权数据解决方案改善一项法国重大环境计划
摘要
Banque des Territoires(法国信托局)与 Polyconseil 和 Hugging Face 去年一月启动的合作表明,生成式 AI 的潜力可以与主权问题相结合。
随着项目第一阶段的完成,所开发的工具最终将支持国家学校环境改造战略。具体来说,该解决方案旨在优化 Banque des Territoires (BdT) EduRénov 计划的支持流程,该计划致力于 10,000 所学校、学院、高中、托儿所或大学的生态改造。
本文分享了以下方面成功协同开发的一些关键经验:
- Banque des Territoires 贷款部门的数据科学团队以及 EduRénov 计划总监;
- Polyconseil 的多学科团队,包括开发人员、DevOps 和产品经理;
- Hugging Face 在机器学习和 AI 解决方案部署方面的专家。
RAG 助力实现环境目标
由 Banque des Territoires (BdT) 设立的 EduRénov 是法国生态和能源转型战略中的一项旗舰计划。它旨在简化、支持和资助公共学校建筑的能源改造。其雄心体现在富有挑战性的目标上:在 5 年内协助 10,000 个从托儿所到大学的改造项目——占全国基础设施总量的 20%——实现 40% 的能源节约。为实现这一目标,Banque des Territoires 调动了前所未有的资源:20 亿欧元贷款用于资助工程,5000 万欧元用于前期工程。仅一年时间,该计划就签署了近 2,000 个项目,但目标是进一步扩大;正如项目总监 Nicolas Turcat 强调的那样:
EduRénov 已经找到了它的项目和巡航速度;现在我们将加强与地方当局的关系质量,同时寻求许多新项目。我们与 Polyconseil 和 Hugging Face 有一个共同的信念:生态转型的挑战将通过扩大我们的行动来赢得胜利。
EduRénov 计划的成功涉及 Banque des Territoires、领导该计划的 Caisse des Dépôts Group (CDC) 专家与拥有相关建筑的社区之间的大量交流——特别是电子邮件。这些互动至关重要,但特别耗时且重复。然而,这些电子邮件的回复依赖于所有 BdT 专家共享的大量文档。因此,采用检索增强生成(RAG)解决方案来促进这些交流是特别合适的。
自 ChatGPT 推出和生成式 AI 兴起以来,许多公司都对利用商业 API 通过 LLM 利用其文档库的 RAG 系统产生了兴趣。考虑到数据的敏感性和战略主权问题,公共部门表现出更为谨慎的热情。
在此背景下,LLM 和开源技术生态系统具有显著优势,尤其是在其通用性能赶上目前领先的专有解决方案的情况下。因此,CDC 决定围绕 EduRénov 计划启动一项试点数据转换项目,该项目因其运营关键性和潜在影响而被选中,并提出了一个基本条件:确保所使用的云和模型的自主权。
工业化同时确保性能和主权
在项目之初,CDC 团队尝试了不同的模型和框架,特别是利用 Hugging Face 提供的开源解决方案(Text Generation Inference、Transformers、Sentence Transformers、Tokenizers 等)。这些测试验证了所设想的 RAG 方法的潜力。因此,CDC 希望开发一个安全应用程序,以提高 Banque des Territoires 支持社区的响应能力。
考虑到法国信托局(Caisse des Dépôts)在法国公共生态系统中的地位,以及为了确保解决方案的主权和所处理数据的安全,它选择了由 Polyconseil 和 Hugging Face 组成的法国集团。除了各自的技术专长,这种合作的互补性被认为特别适合项目的挑战。
Polyconseil 是一家数字创新专家公司,在技术密集型项目的每个阶段都采用敏捷方式。从大型企业到初创公司,Polyconseil 为 ArianeGroup、Canal+、文化部、SNCF 和 FDJ 等各行各业的客户提供服务。Polyconseil 已获得法国服务认证,在本地和云部署方面拥有成熟的专业知识(AWS 高级服务合作伙伴和 Amazon EKS 交付认证、GCP 云架构师认证、Kubernetes CKA 认证顾问等)。因此,该公司拥有部署大型数字项目所需的所有资源,团队由数据科学家、数据工程师、全栈/DevOps 开发人员、UI/UX 设计师、产品经理等组成。其生成式 AI 和 LLM 专业知识基于一个专门的实践:Alivia,通过 Alivia App 和量身定制的支持和实施服务。
Hugging Face 成立于 2016 年,多年来已成为全球范围内使用最广泛的人工智能协作平台。Hugging Face 最初专注于 Transformers 并出版了著名的同名开源库,现在以其平台“Hub”享誉全球,该平台汇集了机器学习社区。Hugging Face 提供了广泛采用的库、超过 750,000 个模型和超过 175,000 个即用型数据集,在短短几年内已成为人工智能领域不可或缺的全球参与者。Hugging Face 的使命是使机器学习民主化,目前拥有超过 200,000 名日常活跃用户和 15,000 家构建、训练和部署模型和数据集的公司。
模块化解决方案以应对动态行业
设想的解决方案是一个提供给 Banque des Territoires 员工的应用程序,允许他们提交潜在客户发送的电子邮件,并根据业务文档自动生成合适且有来源的回复草稿。然后,代理可以在将回复发送给其对话者之前对其进行编辑。最后一步允许通过“人类反馈强化学习”(RLHF)等不同技术来考虑系统代理的期望对齐阶段。
它由下图所示:
图表说明
- 客户通过现有渠道发送电子邮件请求。
- 此请求被传输到新的用户界面。
- 检索器模块从向量数据库中检索相关上下文元素,这些元素已通过嵌入进行索引。
- 检索器模块从向量数据库中查找由其嵌入索引的相关上下文元素。
- 协调器构建一个包含检索到的上下文的提示,并仔细追溯文档来源,然后调用阅读器模块。
- 阅读器模块利用 LLM 生成回复建议,并通过用户界面返回给代理。
- 代理在界面中评估回复的质量,然后进行修改和验证。此步骤允许收集人工智能反馈。
- 转移到消息系统进行发送。
- 答复发送给客户,并提及某些来源的参考文献。
- 客户可以参考所用文档资源的公共存储库。
为实现此整体过程,区分出 4 个主要子系统:
- 绿色:用户界面,用于文档库的摄入以及微调和 RLHF 的定性数据集的构建。
- 黑色:消息系统及其接口。
- 紫色:检索增强生成系统本身。
- 红色:整个管道以及微调和 RLHF 数据库。
关键成功因素
生成式 AI 领域的最新技术发展速度非常快;因此,在项目进行过程中,能够在不显著影响已开发解决方案的情况下更改模型至关重要。Polyconseil 设计了一个模块化架构,其中 LLM、嵌入模型和检索方法可以通过简单的配置进行修改。这还允许数据科学家轻松地迭代不同的配置以优化解决方案的性能。最后,这意味着可以相对简单地在生产环境中部署迄今为止最佳的开放且具有主权特性的 LLM 解决方案。
为了优化设计工作量,我们选择了 模块化单体,并采用 六边形架构。但由于 LLM 的高效评估需要在 GPU 上执行,我们将 LLM 调用转移到单体之外。为此,我们使用了 Hugging Face 的 文本生成推理 (TGI),它提供了一个高性能且可配置的 Docker 化服务,用于托管 Hub 上任何可用的 LLM。
为了确保数据独立性和主权,该解决方案主要依赖部署在法国云提供商 NumSpot 上的开源模型。选择该提供商是由于其 SecNumCloud 资质,并由 Outscale 的 IaaS 提供支持,Outscale 由达索系统公司创立,旨在应对其自身的安全挑战。
在开源解决方案方面,许多法国工具脱颖而出。特别是独角兽公司 Mistral AI,其 Mistral-7B-Instruct-v0.3 模型目前正在系统阅读器中使用。然而,其他更低调但更具针对性的项目也展现出解决我们挑战的巨大潜力,例如我们正在评估的 CroissantLLM。该模型是 CentraleSupélec 的 MICS 实验室 与 Illuin Technology 合作的成果。它旨在提供一个针对法国数据量身定制的、符合道德、负责任且性能卓越的模型。
在组织层面,我们组建了一个单一的敏捷团队,遵循灵活的 ScrumBan 方法论,并辅以每周一次的 AI 进展监测和培训。后者由 Hugging Face 专家通过其
进行。这种结构促进了向 BdT 数据团队的技能和职责的顺利转移,同时确保在项目背景变化中进行定期和弹性的交付。因此,我们提前交付了解决方案的初步 MVP 以及定性和定量评估笔记本。为此,我们利用了专门评估生成式 AI 系统的开源库,例如 RAGAS。这项工作现在构成了我们迭代新功能和改进系统性能的基础。Banque des Territoires 贷款部门 OLS 集团创新与战略总监 Hakim Lahlou 的结语
我们很高兴能与这些在法国乃至国际上享有盛誉的专家们,在 Banque des Territoires 共同开发一项非常创新且完全自主的数据解决方案。基于这个试点项目,这种方法开辟了一条新路径:这很可能就是未来公共政策在各地区部署的方式,以及国家生态和能源转型所需的融资。目前,这种方法是唯一能够实现大规模、高效和精确部署的方法。
您是否参与了一个涉及主权挑战的项目?您想开发一个利用 LLM 能力的解决方案吗?或者您只是对我们的服务或项目有疑问?请直接联系我们:alivia@polyconseil.fr
如果您对贵公司的 Hugging Face 专家支持计划感兴趣,请点击此处联系我们——我们的销售团队将与您联系,讨论您的需求!