mistral.rs v0.5.0

社区文章 发布于2025年3月24日

我们很高兴地宣布 mistral.rs v0.5.0 发布,它带来了许多激动人心的新功能,让 LLM 推理变得更轻松、更快速!

感谢所有为此次发布做出贡献的人。此次发布包括以下亮点,以及无数的改进、修复和优化:

  • 支持更多模型
    • Gemma 3
    • Qwen 2.5 VL
    • Mistral Small 3.1
    • Phi 4 多模态(仅图像)
  • 对以下模型的原生工具调用支持
    • Llama 3.1/3.2/3.3
    • Mistral Small 3
    • Mistral Nemo
    • Hermes 2 Pro
    • Hermes 3
  • 张量并行支持 (NCCL)
  • FlashAttention V3 支持并集成到 PagedAttention 中
  • Metal 上 ISQ 时间缩短了 30 倍
  • 改进的前缀缓存系统

此版本扩大了对模型的支持,使从低端到高端的所有用户都可以在同一个推理平台中工作。用户可以在本地构建其应用程序,然后将其部署到集群中!

我们还为 Metal 设备实施了许多优化!结果如下。

Metal 与 llama.cpp、MLX 的对比

将 T/s 与 llama.cpp 和 MLX v0.24.0 进行比较显示,mistral.rs v0.5.0 在 Metal 上的性能非常相似。您可以在此处重现这些结果。

这些测试是在 M3 Max 机器上进行的。

Llama 3.2 3b,8位

平台 提示 T/s 解码 T/s
mistral.rs 1116.60 71.44
llama.cpp 1532.91 76.87
mlx 1422.471 94.61

Llama 3.1 8b,8位

平台 提示 T/s 解码 T/s
mistral.rs 606.36 37.94
llama.cpp 736.68 39.20
mlx 670.71 44.216

社区

很高兴你们发布了!

干得好!

我想问一下,你为什么认为它比 llama.cpp 和 mlx 慢?瓶颈在哪里?Metal 内核在两个项目中都是开源的(MIT 许可证),所以我不认为是因为缺少内核实现。

注册登录 进行评论