使用 ONNX Runtime 加速超过 130,000 个 Hugging Face 模型

发布于 2023 年 10 月 4 日
在 GitHub 上更新

什么是 ONNX Runtime?

ONNX Runtime 是一个跨平台的机器学习工具,可用于加速各种模型,特别是那些支持 ONNX 的模型。

Hugging Face 对 ONNX Runtime 的支持

Hugging Face 上有超过 130,000 个支持 ONNX 的模型。Hugging Face 是一个开源社区,用户可以在其中构建、训练和部署数十万个公开可用的机器学习模型。这些支持 ONNX 的模型,包括许多日益流行的大语言模型 (LLM) 和云模型,可以利用 ONNX Runtime 来提高性能并获得其他好处。例如,使用 ONNX Runtime 加速 whisper-tiny 模型可以将每次推理的平均延迟提高高达 74.30%(相比 PyTorch)。ONNX Runtime 与 Hugging Face 紧密合作,以确保网站上最受欢迎的模型得到支持。总共有超过 90 种 Hugging Face 模型架构受到 ONNX Runtime 的支持,其中包括 11 种最受欢迎的架构(受欢迎程度由上传到 Hugging Face Hub 的相应模型数量决定)。

模型架构 模型大致数量
BERT 28180
GPT2 14060
DistilBERT 11540
RoBERTa 10800
T5 10450
Wav2Vec2 6560
Stable-Diffusion 5880
XLM-RoBERTa 5100
Whisper 4400
BART 3590
Marian 2840

了解更多

要了解有关使用 ONNX Runtime 加速 Hugging Face 模型的更多信息,请查看我们最近在 Microsoft 开源博客上的文章。

社区

注册登录 发表评论