通过 DigitalOcean 1-Click GPU Droplets 介绍 Llama 视觉指令模型

得益于与 Hugging Face 的合作,Meta Llama 3.2 视觉指令模型现已作为DigitalOcean GPU Droplets 上的 1-Click 模型提供。这些模型将强大的 Llama 大型语言模型的功能扩展到视觉领域,使它们能够对图像数据进行推断和观察,并输出文本。当由 DigitalOcean 的 GPU Droplets 提供支持时,我们可以利用这些强大模型的功能,在 NVIDIA GPU 上以比以往更快的速度运行。
DigitalOcean 是一家云基础设施即服务 (IaaS) 提供商,为开发人员、初创公司和小型企业提供简单、经济且可扩展的云计算解决方案,专注于易用性和快速部署。通过其强大的 1-Click 模型 GPU Droplets,用户可以以经济实惠的价格在云上大规模部署强大的 LLM,无需任何设置,并享受可靠的基础设施。
请继续阅读,了解视觉 LLM 的介绍、Llama 3.2 Vision 的优势,以及如何使用 doctl
(DigitalOcean API 的官方命令行界面)在 1-Click GPU Droplet 上启动 Llama 3.2 Vision 模型。
什么是带 1-Click GPU Droplets 的视觉指令大型语言模型 (LLM)
视觉指令 LLM 简单来说就是能够与文本和图像数据交互,然后利用对两者的理解生成有意义输出的 LLM。正如 Meta 的作者所说,这些模型擅长“视觉识别、图像推理、图像字幕和回答有关图像的一般问题”。(来源 https://huggingface.co/meta-llama/Llama-3.2-11B-Vision)
通过 1-Click 模型 GPU Droplets,这些模型会自动为用户部署和配置,无需用户进行任何设置。一旦 GPU Droplet 启动,用户就可以使用 cURL、Python 请求库或 OpenAI 库语法与部署的模型交互,以处理文本和图像数据。值得注意的是,这使得模型能够连接互联网,并能够从网络获取图像数据。
在市场了解更多关于新推出的 GPU Droplets 上的视觉指令模型
Llama 3.2 视觉指令模型
这些模型于 2024 年底发布,是 Llama 系列大型语言模型的第二个最新迭代。这是该 GPT 模型系列中首次展示处理图像数据和文本输入的能力。让我们看看模型系列,并比较两种可用大小。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 数据量 | 知识截止日期 | |
---|---|---|---|---|---|---|---|---|
Llama 3.2-Vision | (图像,文本)对 | 11B (10.6) | 文本 + 图像 | 文本 | 128k | 是 | 6B(图像,文本)对 | 2023 年 12 月 |
Llama 3.2-Vision | (图像,文本)对 | 90B (88.8) | 文本 + 图像 | 文本 | 128k | 是 | 6B(图像,文本)对 | 2023 年 12 月 |
从上表可以看出,模型发布了两个版本:分别为 110 亿和 900 亿参数。它们都能处理 128k 令牌的相同上下文长度,并具有分组查询注意力以加速推理。此外,它们的信息截止日期是 2023 年 12 月。
视觉指令模型的用例
能够处理图像和视觉数据的 LLM 具有无数的用例。通过微调,它们甚至可以进一步优化,以获得更好的性能、更高的准确性和对特定上下文更相关的理解。让我们探讨一些可能性。
- 图像字幕:这些模型可用于从图像数据中提取文本描述。此外,这些模型还可用于大规模迭代生成图像字幕
- 视觉问答 (VQA):可以回答有关图像的问题,将对图像的更高阶理解与模型的固有推理能力相结合
- 对象识别和分类:模型可以识别图像中描绘的单个对象,并按对象类型对其进行分类。无需任何额外训练即可完成此操作
- 空间推理:理解和描述图像中对象相对位置的能力
- 文档理解:将文档(例如 PDF 或富文本文件)作为图像读取和理解的能力。这与 LLM 的原生理解能力相结合,可对内容进行分析
如何使用 doctl 创建视觉模型 1-Click GPU Droplet
- 下载并安装
doctl
doctl 是 DigitalOcean API 的命令行界面,允许用户从本地终端对 DigitalOcean 产品执行操作。我们将使用 doctl 创建 1-Click 模型 GPU Droplet。
安装 doctl 很简单。只需按照官方文档中提供的指导进行操作。
- 使用 doctl 登录您的帐户
要授权 doctl 访问您的 DigitalOcean 帐户,我们首先需要生成一个 API 密钥。为此,请在浏览器中打开 DigitalOcean 云控制台。在左侧菜单中,单击“API”,这将带您到“应用程序和 API”页面上的“令牌”选项卡。在“个人访问令牌”部分,单击“生成新令牌”按钮。将 API 密钥保存到剪贴板。
完成此操作后,我们需要运行授权命令。将值替换为您要用于授权访问的团队名称。
doctl auth init --context <name>
完成后,系统将提示您粘贴我们之前保存的 API 密钥。这将完成您对帐户的授权。
- 使用 doctl 创建 1-Click 模型 GPU Droplet
现在我们已经授权了我们的账户,我们可以使用 doctl 创建我们的 GPU Droplet。这实际上非常简单。我们所需要做的就是确保我们为连接到远程服务器创建了 SSH 密钥。您可以按照此处的指南进行操作。完成后,保存您的密钥名称。复制以下命令,将 SSH 密钥名称替换为下面的内容。将其粘贴到终端中。
doctl compute droplet create test-droplet --image 172179971 --region nyc2 --size gpu-h100x1-80gb --ssh-keys
- 使用 cURL 与 1-click 模型交互
从我们的终端与模型交互时,我们可以使用 cURL、Python 请求或 OpenAI 的 Python 语法。在此处了解更多与已部署模型交互的不同方式。在此演示中,我们将使用 cURL。
curl https://:8080/v1/chat/completions \
-X POST \
-H 'Content-Type: application/json' \
-H "Authorization: Bearer $BEARER_TOKEN" \
-d '{
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
}
},
{
"type": "text",
"text": "Describe this image in one sentence."
}
]
}
],
"temperature": 0.7,
"top_p": 0.95,
"max_tokens": 128
}
结束语
视觉指令模型的潜力确实是无限的。DigitalOcean 和 HuggingFace 共同抽象了复杂性,让您可以专注于构建。凭借此解决方案的简洁性及其背后的平台深度,您可以在几分钟内部署 Llama Vision Instruct 模型,并开始构建您的 AI 应用程序。我们鼓励您尝试 DigitalOcean 上的 1-Click 模型 GPU Droplets!
请务必访问 DigitalOcean 组织,了解更多关于 GPU Droplets 上可用模型的信息!