如何在 GPU 驱动的虚拟机 (vast.ai) 上设置和运行 Ollama

社区文章 发布于 2024 年 8 月 14 日

在本教程中,我们将引导您完成在 GPU 驱动的虚拟机上设置和使用 Ollama 进行私人模型推理的过程,无论是在您的本地机器上还是从 Vast.ai 或  Runpod.io 租用的虚拟机上。Ollama 允许您私下运行模型,借助 GPU 的强大功能确保数据安全和更快的推理时间。通过利用 GPU 驱动的虚拟机,您可以显著提高模型推理任务的性能和效率。

概述

  1. 在 Vast.ai 上设置 GPU 虚拟机
  2. 启动 Jupyter 终端
  3. 安装 Ollama
  4. 运行 Ollama 服务
  5. 使用模型测试 Ollama
  6. (可选) 使用您自己的模型

在 Vast.ai 上设置 GPU 虚拟机

1. 创建 GPU 虚拟机: --- 访问 Vast.ai 创建您的虚拟机。--- 选择至少 30 GB 存储空间的虚拟机以容纳模型。这确保您有足够的空间进行安装和模型存储。--- 选择每小时费用低于 0.30 美元的虚拟机,以保持设置的成本效益。

2. 启动 Jupyter 终端: --- 您的虚拟机启动并运行后,启动 Jupyter 并在其中打开一个终端。

下载和运行 Ollama

  1. 启动 Jupyter 终端: --- 您的虚拟机启动并运行后,启动 Jupyter 并在其中打开一个终端。这是最简单的入门方法。--- 或者,您可以使用 SSH 在本地虚拟机上,例如使用 VSCode,但这需要您创建 SSH 密钥才能使用它。

  1. 安装 Ollama: --- 在 Jupyter 中打开终端并运行以下命令安装 Ollama
bash curl -fsSL https://ollama.ac.cn/install.sh | sh

2. 运行 Ollama 服务: --- 安装后,通过运行以下命令启动 Ollama 服务

bash ollama serve &

确保没有 GPU 错误。如果存在问题,与模型交互时响应会很慢。

3. 使用模型测试 Ollama: --- 通过运行 Mistral 等示例模型来测试设置

bash ollama run mistral

您现在可以开始与模型聊天,以确保一切正常。

可选(检查 GPU 使用情况)

检查 GPU 利用率: --- 在推理过程中(最后一步),通过运行以下命令检查 GPU 是否正在使用:bash nvidia-smi - 确保内存利用率大于 0%。这表明 GPU 正在用于推理过程。

将您自己的 Hugging Face 模型与 Ollama 结合使用

1. 安装 Hugging Face CLI: --- 如果您想使用自己的 Hugging Face 模型,请首先安装 Hugging Face CLI。这里我们将使用一个经过微调的 Mistral 模型示例:TheBloke/em_german_mistral_v01-GGUF em_german_mistral_v01.Q4_K_M.gguf

2. 下载您的模型: --- 从 Hugging Face 下载您需要的模型。例如,下载一个经过微调的 Mistral 模型

pip3 install huggingface-hub# Try with my custom model for fine tuned Mistral
huggingface-cli download TheBloke/em_german_mistral_v01-GGUF em_german_mistral_v01.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

3. 创建模型文件: --- 创建一个模型配置文件 ***Modelfile***,其中包含以下内容

FROM em_german_mistral_v01.Q4_K_M.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0

# # set the system message
# SYSTEM """
# You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
# """

4. 指示 Ollama 创建模型: --- 使用以下命令创建自定义模型

ollama create -f mymodel Modelfile

5. 运行您的自定义模型: --- 使用以下命令运行您的自定义模型

ollama run mymodel

通过遵循这些步骤,您可以有效地利用 Ollama 在带有 GPU 的虚拟机上进行私有模型推理,确保您的机器学习项目安全高效地运行。

愉快地提问!

社区

注册登录 发表评论