mistral.rs v0.5.0
社区文章 发布于2025年3月24日
我们很高兴地宣布 mistral.rs v0.5.0 发布,它带来了许多激动人心的新功能,让 LLM 推理变得更轻松、更快速!
感谢所有为此次发布做出贡献的人。此次发布包括以下亮点,以及无数的改进、修复和优化:
- 支持更多模型
- Gemma 3
- Qwen 2.5 VL
- Mistral Small 3.1
- Phi 4 多模态(仅图像)
- 对以下模型的原生工具调用支持:
- Llama 3.1/3.2/3.3
- Mistral Small 3
- Mistral Nemo
- Hermes 2 Pro
- Hermes 3
- 张量并行支持 (NCCL)
- FlashAttention V3 支持并集成到 PagedAttention 中
- Metal 上 ISQ 时间缩短了 30 倍
- 改进的前缀缓存系统
此版本扩大了对模型的支持,使从低端到高端的所有用户都可以在同一个推理平台中工作。用户可以在本地构建其应用程序,然后将其部署到集群中!
我们还为 Metal 设备实施了许多优化!结果如下。
Metal 与 llama.cpp、MLX 的对比
将 T/s 与 llama.cpp 和 MLX v0.24.0 进行比较显示,mistral.rs v0.5.0 在 Metal 上的性能非常相似。您可以在此处重现这些结果。
这些测试是在 M3 Max 机器上进行的。
Llama 3.2 3b,8位
平台 | 提示 T/s | 解码 T/s |
---|---|---|
mistral.rs | 1116.60 | 71.44 |
llama.cpp | 1532.91 | 76.87 |
mlx | 1422.471 | 94.61 |
Llama 3.1 8b,8位
平台 | 提示 T/s | 解码 T/s |
---|---|---|
mistral.rs | 606.36 | 37.94 |
llama.cpp | 736.68 | 39.20 |
mlx | 670.71 | 44.216 |