XLSCOUT 发布 ParaEmbed 2.0:一款在 Hugging Face 专家支持下专为专利和知识产权量身打造的强大嵌入模型
本文是 XLSCOUT 团队的客座博文。
XLSCOUT 是一家位于多伦多的公司,在知识产权 (IP) 领域的人工智能应用方面处于领先地位。通过与 Hugging Face 的专家支持计划开展的一项宏伟合作,该公司开发了一款名为 ParaEmbed 2.0 的强大专有嵌入模型。该合作专注于应用最先进的人工智能技术和开源模型,以增进对复杂专利文件的理解和分析,包括专利特定术语、上下文和关系。这使得 XLSCOUT 的产品能够在撰写专利申请、进行专利无效检索以及确保创意相对于现有专利和文献具有新颖性等方面提供最佳性能。
通过在由人类专家策划的高质量、多领域专利数据上进行微调,ParaEmbed 2.0 的准确率比其前身 ParaEmbed 1.0(发布于 2023 年 10 月)显著提升了 23%。凭借这一进步,ParaEmbed 2.0 现在能够更精确地捕捉上下文,并将专利与现有技术、创意、产品或标准进行映射。
增强专利分析的征程
最初,XLSCOUT 探索使用专有 AI 模型进行专利分析,但发现这些闭源模型,如 GPT-4 和 text-embedding-ada-002,难以捕捉技术和专业化专利权利要求所需的细微上下文。
通过整合 BGE-base-v1.5、Llama 2 70B、Falcon 40B 和 Mixtral 8x7B 等开源模型,并在 Hugging Face 的指导下对专有专利数据进行微调,XLSCOUT 实现了更具针对性和高性能的解决方案。这一转变使得对复杂技术概念和术语的理解更加准确,彻底改变了技术文件和专利的分析与理解方式。
通过专家支持计划与 Hugging Face 合作
与 Hugging Face 的合作对于提升 XLSCOUT 解决方案的质量和性能至关重要。以下是该合作伙伴关系如何演变及其影响的详细概述:
- 初步开发与测试: XLSCOUT 最初在 Google Cloud Platform (GCP) 上构建并测试了一个自定义的 TorchServe 推理服务器,该服务器使用分布式数据并行 (DDP) 技术来服务多个副本。通过集成 ONNX 优化,他们实现了每秒约 300 个嵌入的性能速率。
- 通过微调增强模型性能: 使用由专利专家策划的数据对嵌入模型进行微调。这个工作流程不仅能够生成更精确和与上下文更相关的嵌入,还显著提高了性能指标,确保在检测相关现有技术时具有更高的准确性。
- 高吞吐量服务: 通过利用 Hugging Face 的 推理端点 (Inference Endpoints) 及其内置的负载均衡功能,XLSCOUT 现在使用 文本嵌入推理 (TEI) 来服务嵌入模型,以应对在生产环境中成功运行的高吞吐量用例。该解决方案现已实现令人印象深刻的性能,每秒可提供约 2700 个嵌入!
- 大语言模型 (LLM) 提示和推理: 合作内容包括围绕 LLM 提示工程和推理的努力,这增强了模型生成准确且特定于上下文的专利草案的能力。提示工程被用于专利撰写用例,确保提示能够产生连贯、全面且法律上健全的专利文件。
- 用指令数据微调大语言模型: 使用来自 Meta 和 Mistral 的模型实现了指令数据的格式化和微调。这种微调使得在专利撰写过程的某些部分能够生成更精确和详细的内容,进一步提高了生成输出的质量。
与 Hugging Face 的合作对 XLSCOUT 来说是一个改变游戏规则的因素,显著提高了其 LLM 驱动解决方案的处理速度、准确性和整体质量。这项合作确保了大学、律师事务所和其他客户能够受益于尖端的人工智能技术,从而推动专利领域的效率和创新。
XLSCOUT 基于人工智能的知识产权解决方案
XLSCOUT 提供最先进的人工智能驱动解决方案,显著提高专利相关流程的效率和准确性。他们的解决方案被企业、大学和律师事务所广泛利用,以简化知识产权工作流程的各个方面,从新颖性检索和无效性研究到专利撰写。
- 新颖性检查器 LLM (Novelty Checker LLM): 利用尖端的 LLM 和生成式 AI,快速浏览专利和非专利文献以验证您的创意。它提供一份全面的、经过排序的现有技术参考文献列表,以及一份关键特征分析报告。该工具使发明家、研究人员和专利专业人士能够通过与大量现有文献和专利进行比较,确保发明的创新性。
- 无效宣告器 LLM (Invalidator LLM): 利用先进的 LLM 和生成式 AI,以极高的速度和准确性进行专利无效检索。它提供一份详细的、经过排序的现有技术参考文献列表和一份关键特征分析报告。这项服务对于律师事务所和企业高效挑战和评估专利的有效性至关重要。
- 撰写助手 LLM (Drafting LLM): 是一个利用 LLM 和生成式 AI 强大功能的自动化专利申请撰写平台。它能在几分钟内生成精确且高质量的初步专利草案,包括全面的权利要求、摘要、附图、背景和说明。该解决方案帮助专利从业者显著减少撰写详细和精确专利申请所需的时间和精力。
企业和大学通过确保新颖的研究成果得到适当保护、鼓励创新以及申请高质量专利而受益。律师事务所则利用 XLSCOUT 的解决方案为客户提供卓越服务,从而提高其专利申请和诉讼工作的质量。
为创新而建立的合作伙伴关系
“我们非常高兴能与 Hugging Face 合作”,XLSCOUT 首席执行官 Sandeep Agarwal 先生说。“这次合作将 Hugging Face 无与伦比的开源模型、工具和团队能力与我们在专利领域的深厚专业知识相结合。通过利用我们的专有数据对这些模型进行微调,我们有望彻底改变专利的撰写、分析和许可方式。”
XLSCOUT 和 Hugging Face 的共同努力涉及在 XLSCOUT 广泛的专利数据收集上训练开源模型。这种协同作用利用了 XLSCOUT 的专业知识和 Hugging Face 的先进 AI 能力,从而产生了专为专利研究优化的模型。用户将受益于从复杂的专利文件中得出的更明智的决策和宝贵的见解。
对创新的承诺和未来计划
作为将人工智能应用于知识产权领域的先驱,XLSCOUT 致力于探索人工智能驱动创新的新前沿。这次合作标志着在弥合尖端人工智能与知识产权分析实际应用之间差距方面迈出了重要一步。
XLSCOUT 和 Hugging Face 正在共同为专利分析树立新标准,推动创新,并塑造知识产权的未来。我们很高兴能一起继续这段精彩的旅程!
要为您的公司了解更多关于 Hugging Face 专家支持计划的信息,请在此与我们联系 - 我们的团队将与您联系,讨论您的需求!