通过 DigitalOcean 1-Click GPU Droplets 介绍 Llama 视觉指令模型

社区文章发布于 2025 年 3 月 14 日

得益于与 Hugging Face 的合作，Meta Llama 3.2 视觉指令模型现已作为DigitalOcean GPU Droplets 上的 1-Click 模型提供。这些模型将强大的 Llama 大型语言模型的功能扩展到视觉领域，使它们能够对图像数据进行推断和观察，并输出文本。当由 DigitalOcean 的 GPU Droplets 提供支持时，我们可以利用这些强大模型的功能，在 NVIDIA GPU 上以比以往更快的速度运行。

DigitalOcean 是一家云基础设施即服务 (IaaS) 提供商，为开发人员、初创公司和小型企业提供简单、经济且可扩展的云计算解决方案，专注于易用性和快速部署。通过其强大的 1-Click 模型 GPU Droplets，用户可以以经济实惠的价格在云上大规模部署强大的 LLM，无需任何设置，并享受可靠的基础设施。

请继续阅读，了解视觉 LLM 的介绍、Llama 3.2 Vision 的优势，以及如何使用 doctl（DigitalOcean API 的官方命令行界面）在 1-Click GPU Droplet 上启动 Llama 3.2 Vision 模型。

什么是带 1-Click GPU Droplets 的视觉指令大型语言模型 (LLM)

视觉指令 LLM 简单来说就是能够与文本和图像数据交互，然后利用对两者的理解生成有意义输出的 LLM。正如 Meta 的作者所说，这些模型擅长“视觉识别、图像推理、图像字幕和回答有关图像的一般问题”。(来源 https://huggingface.co/meta-llama/Llama-3.2-11B-Vision)

通过 1-Click 模型 GPU Droplets，这些模型会自动为用户部署和配置，无需用户进行任何设置。一旦 GPU Droplet 启动，用户就可以使用 cURL、Python 请求库或 OpenAI 库语法与部署的模型交互，以处理文本和图像数据。值得注意的是，这使得模型能够连接互联网，并能够从网络获取图像数据。

在市场了解更多关于新推出的 GPU Droplets 上的视觉指令模型

Llama 3.2 视觉指令模型

这些模型于 2024 年底发布，是 Llama 系列大型语言模型的第二个最新迭代。这是该 GPT 模型系列中首次展示处理图像数据和文本输入的能力。让我们看看模型系列，并比较两种可用大小。

	训练数据	参数	输入模态	输出模态	上下文长度	GQA	数据量	知识截止日期
Llama 3.2-Vision	（图像，文本）对	11B (10.6)	文本 + 图像	文本	128k	是	6B（图像，文本）对	2023 年 12 月
Llama 3.2-Vision	（图像，文本）对	90B (88.8)	文本 + 图像	文本	128k	是	6B（图像，文本）对	2023 年 12 月

从上表可以看出，模型发布了两个版本：分别为 110 亿和 900 亿参数。它们都能处理 128k 令牌的相同上下文长度，并具有分组查询注意力以加速推理。此外，它们的信息截止日期是 2023 年 12 月。

视觉指令模型的用例

能够处理图像和视觉数据的 LLM 具有无数的用例。通过微调，它们甚至可以进一步优化，以获得更好的性能、更高的准确性和对特定上下文更相关的理解。让我们探讨一些可能性。

图像字幕：这些模型可用于从图像数据中提取文本描述。此外，这些模型还可用于大规模迭代生成图像字幕
视觉问答 (VQA)：可以回答有关图像的问题，将对图像的更高阶理解与模型的固有推理能力相结合
对象识别和分类：模型可以识别图像中描绘的单个对象，并按对象类型对其进行分类。无需任何额外训练即可完成此操作
空间推理：理解和描述图像中对象相对位置的能力
文档理解：将文档（例如 PDF 或富文本文件）作为图像读取和理解的能力。这与 LLM 的原生理解能力相结合，可对内容进行分析

如何使用 doctl 创建视觉模型 1-Click GPU Droplet

下载并安装 doctl

doctl 是 DigitalOcean API 的命令行界面，允许用户从本地终端对 DigitalOcean 产品执行操作。我们将使用 doctl 创建 1-Click 模型 GPU Droplet。

安装 doctl 很简单。只需按照官方文档中提供的指导进行操作。

使用 doctl 登录您的帐户

要授权 doctl 访问您的 DigitalOcean 帐户，我们首先需要生成一个 API 密钥。为此，请在浏览器中打开 DigitalOcean 云控制台。在左侧菜单中，单击“API”，这将带您到“应用程序和 API”页面上的“令牌”选项卡。在“个人访问令牌”部分，单击“生成新令牌”按钮。将 API 密钥保存到剪贴板。

完成此操作后，我们需要运行授权命令。将值替换为您要用于授权访问的团队名称。

doctl auth init --context <name>

完成后，系统将提示您粘贴我们之前保存的 API 密钥。这将完成您对帐户的授权。

使用 doctl 创建 1-Click 模型 GPU Droplet

现在我们已经授权了我们的账户，我们可以使用 doctl 创建我们的 GPU Droplet。这实际上非常简单。我们所需要做的就是确保我们为连接到远程服务器创建了 SSH 密钥。您可以按照此处的指南进行操作。完成后，保存您的密钥名称。复制以下命令，将 SSH 密钥名称替换为下面的内容。将其粘贴到终端中。

doctl compute droplet create test-droplet --image 172179971 --region nyc2 --size gpu-h100x1-80gb --ssh-keys

使用 cURL 与 1-click 模型交互

从我们的终端与模型交互时，我们可以使用 cURL、Python 请求或 OpenAI 的 Python 语法。在此处了解更多与已部署模型交互的不同方式。在此演示中，我们将使用 cURL。

curl https://:8080/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -H "Authorization: Bearer $BEARER_TOKEN" \
  -d '{
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
            }
          },
          {
            "type": "text",
            "text": "Describe this image in one sentence."
          }
        ]
      }
    ],
    "temperature": 0.7,
    "top_p": 0.95,
    "max_tokens": 128
  }

结束语

视觉指令模型的潜力确实是无限的。DigitalOcean 和 HuggingFace 共同抽象了复杂性，让您可以专注于构建。凭借此解决方案的简洁性及其背后的平台深度，您可以在几分钟内部署 Llama Vision Instruct 模型，并开始构建您的 AI 应用程序。我们鼓励您尝试 DigitalOcean 上的 1-Click 模型 GPU Droplets！

请务必访问 DigitalOcean 组织，了解更多关于 GPU Droplets 上可用模型的信息！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论