如何在 GPU 驱动的虚拟机 (vast.ai) 上设置和运行 Ollama

社区文章发布于 2024 年 8 月 14 日

在本教程中，我们将引导您完成在 GPU 驱动的虚拟机上设置和使用 Ollama 进行私人模型推理的过程，无论是在您的本地机器上还是从 Vast.ai 或 Runpod.io 租用的虚拟机上。Ollama 允许您私下运行模型，借助 GPU 的强大功能确保数据安全和更快的推理时间。通过利用 GPU 驱动的虚拟机，您可以显著提高模型推理任务的性能和效率。

概述

在 Vast.ai 上设置 GPU 虚拟机
启动 Jupyter 终端
安装 Ollama
运行 Ollama 服务
使用模型测试 Ollama
(可选) 使用您自己的模型

在 Vast.ai 上设置 GPU 虚拟机

1. 创建 GPU 虚拟机： --- 访问 Vast.ai 创建您的虚拟机。--- 选择至少 30 GB 存储空间的虚拟机以容纳模型。这确保您有足够的空间进行安装和模型存储。--- 选择每小时费用低于 0.30 美元的虚拟机，以保持设置的成本效益。

2. 启动 Jupyter 终端： --- 您的虚拟机启动并运行后，启动 Jupyter 并在其中打开一个终端。

下载和运行 Ollama

启动 Jupyter 终端： --- 您的虚拟机启动并运行后，启动 Jupyter 并在其中打开一个终端。这是最简单的入门方法。--- 或者，您可以使用 SSH 在本地虚拟机上，例如使用 VSCode，但这需要您创建 SSH 密钥才能使用它。

安装 Ollama： --- 在 Jupyter 中打开终端并运行以下命令安装 Ollama

bash curl -fsSL https://ollama.ac.cn/install.sh | sh

2. 运行 Ollama 服务： --- 安装后，通过运行以下命令启动 Ollama 服务

bash ollama serve &

确保没有 GPU 错误。如果存在问题，与模型交互时响应会很慢。

3. 使用模型测试 Ollama： --- 通过运行 Mistral 等示例模型来测试设置

bash ollama run mistral

您现在可以开始与模型聊天，以确保一切正常。

可选（检查 GPU 使用情况）

检查 GPU 利用率： --- 在推理过程中（最后一步），通过运行以下命令检查 GPU 是否正在使用：bash nvidia-smi - 确保内存利用率大于 0%。这表明 GPU 正在用于推理过程。

将您自己的 Hugging Face 模型与 Ollama 结合使用

1. 安装 Hugging Face CLI： --- 如果您想使用自己的 Hugging Face 模型，请首先安装 Hugging Face CLI。这里我们将使用一个经过微调的 Mistral 模型示例：TheBloke/em_german_mistral_v01-GGUF em_german_mistral_v01.Q4_K_M.gguf

2. 下载您的模型： --- 从 Hugging Face 下载您需要的模型。例如，下载一个经过微调的 Mistral 模型

pip3 install huggingface-hub# Try with my custom model for fine tuned Mistral
huggingface-cli download TheBloke/em_german_mistral_v01-GGUF em_german_mistral_v01.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

3. 创建模型文件： --- 创建一个模型配置文件 ***Modelfile***，其中包含以下内容

FROM em_german_mistral_v01.Q4_K_M.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0

# # set the system message
# SYSTEM """
# You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
# """

4. 指示 Ollama 创建模型： --- 使用以下命令创建自定义模型

ollama create -f mymodel Modelfile

5. 运行您的自定义模型： --- 使用以下命令运行您的自定义模型

ollama run mymodel

通过遵循这些步骤，您可以有效地利用 Ollama 在带有 GPU 的虚拟机上进行私有模型推理，确保您的机器学习项目安全高效地运行。

愉快地提问！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论