非核心模型服务
TGI 支持各种 LLM 架构(请参阅完整列表此处)。如果您希望服务一个不受支持的模型,TGI 将回退到该模型的 transformers
实现。这意味着您将无法使用 TGI 引入的一些功能,例如张量并行分片或 Flash Attention。但是,您仍然可以获得 TGI 的许多好处,例如连续批处理或流式输出。
您可以使用与完全支持的模型相同的 Docker 命令行调用来服务这些模型 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
如果您希望服务的模型是自定义的 transformers 模型,并且其权重和实现在 Hub 上可用,您仍然可以通过传递 --trust-remote-code
标志到 docker run
命令来服务该模型,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
最后,如果模型不在 Hugging Face Hub 上,而是在您的本地,您可以传递包含模型的文件夹路径,如下所示 👇
# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>
您可以参考transformers 关于自定义模型的文档以获取更多信息。
< > 更新 在 GitHub 上