通过 DigitalOcean 1-Click GPU Droplets 介绍 Llama 视觉指令模型

社区文章 发布于 2025 年 3 月 14 日

image/png

得益于与 Hugging Face 的合作,Meta Llama 3.2 视觉指令模型现已作为DigitalOcean GPU Droplets 上的 1-Click 模型提供。这些模型将强大的 Llama 大型语言模型的功能扩展到视觉领域,使它们能够对图像数据进行推断和观察,并输出文本。当由 DigitalOcean 的 GPU Droplets 提供支持时,我们可以利用这些强大模型的功能,在 NVIDIA GPU 上以比以往更快的速度运行。

DigitalOcean 是一家云基础设施即服务 (IaaS) 提供商,为开发人员、初创公司和小型企业提供简单、经济且可扩展的云计算解决方案,专注于易用性和快速部署。通过其强大的 1-Click 模型 GPU Droplets,用户可以以经济实惠的价格在云上大规模部署强大的 LLM,无需任何设置,并享受可靠的基础设施。

请继续阅读,了解视觉 LLM 的介绍、Llama 3.2 Vision 的优势,以及如何使用 doctl(DigitalOcean API 的官方命令行界面)在 1-Click GPU Droplet 上启动 Llama 3.2 Vision 模型。

什么是带 1-Click GPU Droplets 的视觉指令大型语言模型 (LLM)

视觉指令 LLM 简单来说就是能够与文本和图像数据交互,然后利用对两者的理解生成有意义输出的 LLM。正如 Meta 的作者所说,这些模型擅长“视觉识别、图像推理、图像字幕和回答有关图像的一般问题”。(来源 https://huggingface.co/meta-llama/Llama-3.2-11B-Vision)

通过 1-Click 模型 GPU Droplets,这些模型会自动为用户部署和配置,无需用户进行任何设置。一旦 GPU Droplet 启动,用户就可以使用 cURL、Python 请求库或 OpenAI 库语法与部署的模型交互,以处理文本和图像数据。值得注意的是,这使得模型能够连接互联网,并能够从网络获取图像数据。

在市场了解更多关于新推出的 GPU Droplets 上的视觉指令模型

Llama 3.2 视觉指令模型

这些模型于 2024 年底发布,是 Llama 系列大型语言模型的第二个最新迭代。这是该 GPT 模型系列中首次展示处理图像数据和文本输入的能力。让我们看看模型系列,并比较两种可用大小。

训练数据 参数 输入模态 输出模态 上下文长度 GQA 数据量 知识截止日期
Llama 3.2-Vision (图像,文本)对 11B (10.6) 文本 + 图像 文本 128k 6B(图像,文本)对 2023 年 12 月
Llama 3.2-Vision (图像,文本)对 90B (88.8) 文本 + 图像 文本 128k 6B(图像,文本)对 2023 年 12 月

从上表可以看出,模型发布了两个版本:分别为 110 亿和 900 亿参数。它们都能处理 128k 令牌的相同上下文长度,并具有分组查询注意力以加速推理。此外,它们的信息截止日期是 2023 年 12 月。

视觉指令模型的用例

能够处理图像和视觉数据的 LLM 具有无数的用例。通过微调,它们甚至可以进一步优化,以获得更好的性能、更高的准确性和对特定上下文更相关的理解。让我们探讨一些可能性。

  • 图像字幕:这些模型可用于从图像数据中提取文本描述。此外,这些模型还可用于大规模迭代生成图像字幕
  • 视觉问答 (VQA):可以回答有关图像的问题,将对图像的更高阶理解与模型的固有推理能力相结合
  • 对象识别和分类:模型可以识别图像中描绘的单个对象,并按对象类型对其进行分类。无需任何额外训练即可完成此操作
  • 空间推理:理解和描述图像中对象相对位置的能力
  • 文档理解:将文档(例如 PDF 或富文本文件)作为图像读取和理解的能力。这与 LLM 的原生理解能力相结合,可对内容进行分析

如何使用 doctl 创建视觉模型 1-Click GPU Droplet

  1. 下载并安装 doctl

doctl 是 DigitalOcean API 的命令行界面,允许用户从本地终端对 DigitalOcean 产品执行操作。我们将使用 doctl 创建 1-Click 模型 GPU Droplet。

安装 doctl 很简单。只需按照官方文档中提供的指导进行操作。

  1. 使用 doctl 登录您的帐户

要授权 doctl 访问您的 DigitalOcean 帐户,我们首先需要生成一个 API 密钥。为此,请在浏览器中打开 DigitalOcean 云控制台。在左侧菜单中,单击“API”,这将带您到“应用程序和 API”页面上的“令牌”选项卡。在“个人访问令牌”部分,单击“生成新令牌”按钮。将 API 密钥保存到剪贴板。

image/png

完成此操作后,我们需要运行授权命令。将值替换为您要用于授权访问的团队名称。

doctl auth init --context <name>

完成后,系统将提示您粘贴我们之前保存的 API 密钥。这将完成您对帐户的授权。

  1. 使用 doctl 创建 1-Click 模型 GPU Droplet

现在我们已经授权了我们的账户,我们可以使用 doctl 创建我们的 GPU Droplet。这实际上非常简单。我们所需要做的就是确保我们为连接到远程服务器创建了 SSH 密钥。您可以按照此处的指南进行操作。完成后,保存您的密钥名称。复制以下命令,将 SSH 密钥名称替换为下面的内容。将其粘贴到终端中。

doctl compute droplet create test-droplet --image 172179971 --region nyc2 --size gpu-h100x1-80gb --ssh-keys

  1. 使用 cURL 与 1-click 模型交互

从我们的终端与模型交互时,我们可以使用 cURL、Python 请求或 OpenAI 的 Python 语法。在此处了解更多与已部署模型交互的不同方式。在此演示中,我们将使用 cURL。

curl https://:8080/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -H "Authorization: Bearer $BEARER_TOKEN" \
  -d '{
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image in one sentence."
          }
        ]
      }
    ],
    "temperature": 0.7,
    "top_p": 0.95,
    "max_tokens": 128
  }

结束语

视觉指令模型的潜力确实是无限的。DigitalOcean 和 HuggingFace 共同抽象了复杂性,让您可以专注于构建。凭借此解决方案的简洁性及其背后的平台深度,您可以在几分钟内部署 Llama Vision Instruct 模型,并开始构建您的 AI 应用程序。我们鼓励您尝试 DigitalOcean 上的 1-Click 模型 GPU Droplets!

请务必访问 DigitalOcean 组织,了解更多关于 GPU Droplets 上可用模型的信息!

社区

注册登录发表评论