欢迎 NVIDIA Llama Nemotron Nano VLM 入驻 Hugging Face Hub

社区文章 发布于 2025 年 6 月 27 日

概述

NVIDIA Llama Nemotron Nano VL 是一个最先进的 8B 视觉语言模型 (VLM),专为智能文档处理设计,提供高精度和多模态理解能力。它在 Hugging Face 上可用,擅长从发票、收据、合同等复杂文档中提取和理解信息。凭借其强大的 OCR 功能和在 OCRBench v2 基准测试上的高效性能,该模型在文本和表格提取以及图表、图示和表格解析方面提供了行业领先的准确性。无论您是自动化财务文档处理还是改进商业智能工作流程,Llama Nemotron Nano VL 都针对快速、可扩展的部署进行了优化。

请查看以下教程,开始使用 Llama Nemotron Nano VL 构建您自己的智能文档处理解决方案!用户还可以使用 NVIDIA NeMo 使用自己的数据集对模型进行后期训练


Llama Nemotron Nano VL 简介

Llama Nemotron Nano VLNVIDIA Nemotron 模型家族的最新成员,它是一款视觉语言模型 (VLM),旨在突破智能文档处理 (IDP) 和光学字符识别 (OCR) 的界限。凭借其高精度、低模型占用空间和多模态能力,Llama Nemotron Nano VL 能够无缝地从复杂文档中提取和理解信息。这包括 PDF、图像、表格、图表、公式和图示,使其成为金融、医疗保健、法律和政府等各个行业文档工作流程自动化的理想解决方案。

Llama Nemotron Nano VL 实现高精度 OCR

Llama Nemotron Nano VL 在 OCRBench v2 基准测试中表现出卓越的准确性,该基准测试在实际 OCR 和文档理解任务中测试模型。这些任务包括文本识别、表格提取以及各种文档类型的元素解析。该模型的先进功能使其在实际企业场景中比当前领先的 VLM 表现出更好的性能。

Llama Nemotron Nano VL OCRBench v2 性能:

  • 文本识别:Llama Nemotron Nano VL 擅长识别和提取文本,在发票处理等实际 OCR 任务中实现高精度。
  • 元素解析:该模型能够准确识别和提取表格、图表和图像等关键文档元素,这对于理解复杂文档至关重要。
  • 表格提取:使用该模型从文档中提取表格数据精度很高,使其适用于财务报表和类似用例。
  • 定位:它还支持通过查询和输出中的边界框进行定位,从而增强了模型响应的可解释性。

image/png

模型架构与创新

Llama Nemotron Nano VL 基于 Llama-3.1-8B-InstructC-RADIOv2-VLM-H 构建,C-RADIOv2-VLM-H 是一种视觉 Transformer (ViT),作为视觉特征提取的骨干网络。这使得模型能够处理文档中各种视觉元素,包括图表、图形和其他复杂的视觉表示。

核心技术

强大的视觉基础

C-RADIOv2-VLM-H 视觉 Transformer (ViT):作为模型的核心视觉理解组件,C-RADIO 能够对包含复杂视觉元素的文档进行高分辨率处理。它作为视觉骨干网络,在各种视觉领域表现出色,并使模型能够以高分辨率处理多图像理解。这项技术是模型处理包含图像、图示、图表和表格等视觉元素的复杂文档能力的基础。

C-RADIO 使用多种蒸馏技术对多分辨率数据进行训练。在训练过程中,我们在权重中应用了乘性噪声以改善泛化能力。

Llama Nemotron VL 进一步采用了一种动态聚合编码补丁特征的设计,从而在不牺牲空间连续性的情况下支持高分辨率输入。该策略有效地处理具有任意长宽比的文档,同时保留局部细节和全局上下文。它能够对密集视觉内容(如小字体、多列布局和复杂图表)进行细粒度分析,而不会影响计算效率或覆盖范围。由于高分辨率平铺的创新,该模型还可以更好地保留信息并减少失真。

通过为 Llama-3.1 8B LLM 赋予这个强大的视觉基础,Llama Nemotron Nano VL 在文档解析和解释方面提供了无与伦比的准确性。

用于文档智能的高质量数据

Llama Nemotron Nano VL 使用了几个 OSS 数据集以及来自 NVIDIA 基于 VLM 的 OCR 解决方案 NeMo Retriever Parse 的数据进行训练。这提供了文本和表格解析以及定位的能力,使 Llama Nemotron Nano VL 能够在文档理解任务中达到行业领先水平。用于训练此 OCR 解决方案的合成表格提取数据集也用于训练 Llama Nemotron Nano VL 8B VLM,以实现更优化的表格理解和提取。

Llama Nemotron Nano VL 在文本识别和视觉推理等任务中表现出色,并展示了高级图表和图示理解能力。Llama Nemotron Nano VL 允许预测归一化空间中的边界框坐标,以实现定位等任务和文本引用。

这种强大的性能得益于高质量的领域内数据以及跨文档类型、语言和布局的各种训练分布。稳健的数据策略通过选择性整理、有针对性的增强和格式化技术确保涵盖具有挑战性的用例,这些技术澄清了任务意图并减少了歧义——从而使模型有效地泛化到实际应用中。

预训练

Llama Nemotron Nano VL 经过两阶段训练:预训练,然后是监督微调 (SFT)。初始预训练阶段侧重于实现语言和视觉领域之间的跨模态对齐。这是通过训练多层感知器 (MLP) 连接器来实现的,该连接器充当两种模态之间的接口。

在训练过程中,Llama Nemotron Nano VL 利用了一个全面而多样的数据集集合。这个聚合数据集总共包含约 1.5M 个样本,包括公开可用、合成生成以及内部整理的数据集。图 1 总结了预训练阶段使用的数据集。

Pretraining datasets
图 1:Llama Nemotron Nano VL 预训练期间使用的数据集组成
监督微调

在监督微调阶段,Llama-Nemotron-Nano-VL 在合成、公开和内部整理的数据集组合上进行端到端训练。数据涵盖了广泛的任务,包括但不限于:OCR、文本定位、表格解析和基于文档的通用 VQA。

Llama Nemotron Nano VL 的文档理解能力主要归因于以 OCR 为中心的 SFT 数据混合。除了简单的 OCR,许多数据集还涉及预测正确的阅读顺序、重建 Markdown 格式以及语义类别(如标题、章节标题)和单个文本块的边界框等任务。该模型还经过训练,可以根据提示以 LaTeX 格式解析数学公式,并以 LaTeX、HTML 或 Markdown 格式提取表格。

为了确保在各种领域中的鲁棒性,我们对文档图像应用了仿射和光度增强。为了进一步提高表格和图表解析性能,我们允许在数据集之间交换嵌入到整页文档中的表格和图表。这使得模型能够处理各种文档布局和结构。

内部创建的大部分数据集基于 Nemo Retriever Parse 训练数据。其中包括 NVPDFTex——一个 arxiv 文档集合,其真实标签由按阅读顺序格式化的文本组成,带有文本的边界框和语义类别,以及 LaTeX 表格和公式;由人工标注的 Common Crawl pdf;维基百科中带有 Markdown 格式和表格的渲染文本,以及一些旨在提高表格解析能力和密集 OCR 的合成数据集。此外,训练混合中还包括一些公开可用的数据集,如 DocLayNet、FinTabNet 和 PubTables-1M,我们对其中的真实标签进行了优化。

下图 2 显示了训练数据的任务分布。可以看出,很大一部分训练样本涉及 OCR 以及定位和表格解析,以及 OCR 相关的 VQA 任务。

SFT datasets
图 2:SFT 训练数据集中各任务的构成

后期训练流程

Llama Nemotron Nano VL 使用 NVIDIA Megatron 进行训练,并利用 NVIDIA Transformer Engine 中高效的 Transformer 实现。对于多模态数据加载,我们使用 Megatron Energon。我们提供示例 Megatron 训练和推理脚本以及超参数和其他说明,以实现 VLM 的自定义训练。

示例

表格提取

image/png

带定位的 VQA

image/png

文本提取

image/png

推荐提示词

为了确保输出格式完全符合您的需求,我们建议在您的提示词中包含详细说明。我们提供了一些示例如下,以说明其在各种任务中的运作方式

按阅读顺序提取文档以及定位和语义类别

Parse this document in reading order as mathpix markdown with LaTeX equations and tables. Fetch the bounding box for each block along with the corresponding category from the following options: Bibliography, Caption, Code, Footnote, Formula, List-item, Page-footer, Page-header, Picture, Section-header, TOC (Table-of-Contents), Table, Text and Title. The coordinates should be normalized ranging from 0 to 1000 by the image width and height.
Your answer should be in the following format:\n[{{\"bbox\": [x1, y1, x2, y2], \"category\": category, \"content\": text_content)}}...].

RD-TableBench 的表格提取

Convert the image to an HTML table. The output should begin with <table> and end with </table>. Specify rowspan and colspan attributes when they are greater than 1. Do not specify any other attributes. Only use the b, br, tr, th, td, sub and sup HTML tags. No additional formatting is required.

带定位的表格提取

Transcribe the tables as HTML and extract their bounding box coordinates. The coordinates should be normalized ranging from 0 to 1000 by the image width and height and the answer should be in the following format:\n[(x1, y1, x2, y2, html table), (x1, y1, x2, y2, html table)...].

OCRBench v2 基准测试:深入探究

OCRBench v2 是一个先进的基准测试,旨在评估 OCR 模型在各种实际文档类型和布局上的表现。它包括超过 10,000 个人工验证的问题-答案对,以严格评估模型在视觉文本定位、表格解析、图示推理和键值提取方面的能力。

Llama Nemotron Nano VL 在此基准测试中优于其他 VLM,并在 ChartQAAI2D 等基准测试中也取得了高精度,使其成为旨在自动化文档工作流程(例如)的企业的一个引人注目的选择:

  • 发票和收据处理
  • 合规和身份文件分析
  • 合同和法律文件审查
  • 医疗保健和金融文件处理

它结合了高精度、强大的布局感知推理和在单个 GPU 上的高效部署,使其成为大规模企业自动化的理想选择。

Llama Nemotron Nano VL 的高级用例

Llama Nemotron Nano VL 针对多种行业的各种文档处理任务进行了优化。以下是该模型擅长的一些关键用例:

1. 发票和收据处理

自动从发票和收据中提取行项目、总计、日期和其他关键数据点。这对于会计、ERP 集成和费用管理至关重要。

2. 合规文件分析

从护照、身份证和税务表格中提取结构化数据,用于监管合规和 KYC 流程。

3. 合同审查

自动识别法律文件中的关键条款、日期和义务。

4. 医疗保健和保险自动化

从医疗记录和保险表格中提取患者数据、索赔信息和保单详情。

Llama Nemotron Nano VL 入门

Llama Nemotron Nano VL 为开发者提供了大规模自动化文档处理工作流程的工具。它通过 NVIDIA NIM API 提供,并可在 Hugging Face 上下载,您可以在其中开始构建生产就绪的文档理解应用程序。用户还可以使用 NVIDIA NeMo 在自己的数据集上微调模型。

动手教程:构建发票/收据文档智能 笔记本视频

本教程将引导您完成以下内容:

  • 设置环境以使用 Llama Nemotron Nano VL。
  • 处理发票和收据以自动提取和组织数据。
  • 优化您的解决方案以处理大规模文档工作流程。

结论

Llama Nemotron Nano VL 是一款强大的多模态模型,旨在满足现代企业对智能文档处理的苛刻需求。无论您是处理发票、合同还是合规文档,该模型都能提供高性能文档理解所需的准确性、效率和可扩展性。

如需亲身体验,请查看我们的发票和收据文档智能教程,立即开始充分利用 Llama Nemotron Nano VL 的强大功能。

贡献者

Amala Sanjay Deshmukh*、Kateryna Chumachenko*、Tuomas Rintamaki、Matthieu Le、Tyler Poon、Lukas Voegtle、Philipp Fischer、Jarno Seppanen、Ilia Karmanov、Guo Chen、Zhiqi Li、Guilin Liu、Zhiding Yu、Danial Mohseni Taheri、Pritam Biswas、Hao Zhang、Yao Xu、Mike Ranzinger、Greg Heinrich、Pavlo Molchanov、Jason Lu、Hongxu Yin、Sean Cha、Subhashree Radhakrishnan、Ratnesh Kumar、Zaid Pervaiz Bhat、Daniel Korzekwa、Sepehr Sameni、Boxin Wang、Zhuolin Yang、Nayeon Lee、Wei Ping、Wenliang Dai、Katherine Luna、Michael Evans、Leon Derczynski、Erick Galinkin、Akshay Hazare、Padmavathy Subramanian、Alejandra Rico、Amy Shen、Annie Surla、Katherine Cheung、Saori Kaji、Meredith Price、Bo Liu、Benedikt Schifferer、Jean-Francois Puget、Oluwatobi Olabiyi、Karan Sapra、Timo Roman、Jan Kautz、Andrew Tao、Bryan Catanzaro

* 同等贡献

社区

注册登录评论