使用 ONNX Runtime 加速超过 130,000 个 Hugging Face 模型
发布于 2023 年 10 月 4 日
在 GitHub 上更新什么是 ONNX Runtime?
ONNX Runtime 是一个跨平台机器学习工具,可用于加速各种模型,特别是那些支持 ONNX 的模型。
Hugging Face ONNX Runtime 支持
Hugging Face 上有超过 130,000 个支持 ONNX 的模型。Hugging Face 是一个开源社区,允许用户构建、训练和部署数十万个公开可用的机器学习模型。这些支持 ONNX 的模型,包括许多日益流行的语言大模型 (LLM) 和云模型,都可以利用 ONNX Runtime 来提高性能,并带来其他好处。例如,使用 ONNX Runtime 加速 whisper-tiny 模型可以将每次推理的平均延迟提高高达 74.30%,优于 PyTorch。ONNX Runtime 与 Hugging Face 紧密合作,确保网站上最受欢迎的模型得到支持。总共有超过 90 种 Hugging Face 模型架构支持 ONNX Runtime,包括 11 种最受欢迎的架构(受欢迎程度由上传到 Hugging Face Hub 的模型数量决定)。
| 模型架构 | 模型数量估算 |
|---|---|
| BERT | 28180 |
| GPT2 | 14060 |
| DistilBERT | 11540 |
| RoBERTa | 10800 |
| T5 | 10450 |
| Wav2Vec2 | 6560 |
| Stable-Diffusion | 5880 |
| XLM-RoBERTa | 5100 |
| Whisper | 4400 |
| BART | 3590 |
| Marian | 2840 |
了解更多
要了解有关使用 ONNX Runtime 加速 Hugging Face 模型的信息,请参阅我们最近在 Microsoft Open Source Blog 上的帖子。