推理端点更新日志 🚀

社区文章发布于 2024 年 10 月 11 日

Erik Kaunismäki

erikkaum

第 23 周，6 月 2 日 - 6 月 8 日

第 22 周，5 月 26 日 - 6 月 1 日

第 21 周，5 月 19 日 - 5 月 25 日

第 20 周，5 月 12 日 - 5 月 18 日

第 19 周，5 月 5 日 - 5 月 11 日

第 18 周，4 月 28 日 - 5 月 4 日

第 17 周，4 月 21 日 - 4 月 27 日

第 16 周，4 月 14 日 - 4 月 20 日

第 15 周，4 月 7 日 - 4 月 13 日

第 14 周，3 月 31 日 - 4 月 6 日

第 13 周，3 月 24 日 - 3 月 30 日

第 12 周，3 月 17 日 - 3 月 23 日

第 11 周，3 月 10 日 - 3 月 16 日

第 10 周，3 月 3 日 - 3 月 9 日

第 09 周，2 月 24 日 - 3 月 2 日

第 08 周，2 月 17 日 - 2 月 23 日

第 07 周，2 月 10 日 - 2 月 16 日

第 06 周，2 月 3 日 - 2 月 9 日

第 05 周，1 月 27 日 - 2 月 2 日

第 04 周，1 月 20 日 - 1 月 26 日

第 03 周，1 月 13 日 - 1 月 19 日

第 02 周，1 月 6 日 - 1 月 12 日

圣诞节和新年周，12 月 15 日 - 1 月 5 日

第 50 周，12 月 9 日 - 12 月 15 日

第 49 周，12 月 2 日 - 12 月 8 日

第 48 周，11 月 25 日 - 12 月 1 日

第 47 周，11 月 18 日 - 11 月 24 日

第 46 周，11 月 11 日 - 11 月 17 日

第 45 周，11 月 4 日 - 11 月 10 日

第 44 周，10 月 28 日 - 11 月 3 日

第 43 周，10 月 21-27 日

第 42 周，10 月 14-20 日

第 41 周，10 月 7-13 日

第 23 周，6 月 2 日 - 6 月 8 日

本周最大的更新来了：我们很高兴推出审计日志和 vLLM 容器类型！🎉

通过审计日志，您现在可以详细跟踪所有端点活动。非常适合安全和合规性，让您完全了解谁在何时做了什么。请注意，审计日志是企业功能，您可以在此处 🙌注册

在容器方面，我们推出了 vLLM 容器类型，这进一步拓宽了可以使用高性能推理引擎运行的模型选择。快来试试并告诉我们您的反馈！

第 22 周，5 月 26 日 - 6 月 1 日

本周我们没有对用户可见的更新。工作主要在后端和幕后进行。我保证会有好东西到来🤫

第 21 周，5 月 19 日 - 5 月 25 日

本周我们为您带来了两项重大更新

全局导航更新。目标是让加入多个组织的用户更清楚地了解自己当前在哪一个组织。如何轻松确保我的个人组织不与业务账户混淆？通过此更新，我们分离了视图，希望能使事情更清晰、更易于导航🙌
将默认 TGI 版本升级到 3.3.1。最新的 TGI 版本已经发布，当您部署新的端点时，您将默认获得所有优势🔥

第 20 周，5 月 12 日 - 5 月 18 日

ngxson 为 llama.cpp 添加图像-文本到文本模型的重要工作也已在推理端点中实现🔥

例如，您可以从目录中部署Qwen2.5-VL-7B-Instruct-Q8_0.gguf。我们将自动为您选择多模态投影文件

我们还在通知方面进行了一些生活质量改进。应该只弹出一个提示，询问您是否希望接收浏览器通知，并且此偏好将保存在您的浏览器中👍

第 19 周，5 月 5 日 - 5 月 11 日

本周我们的工作量相对较小，但我们根据用户反馈做了一个小改动：默认的自动缩放到零超时现在是 1 小时，而不是 15 分钟。用户普遍认为 15 分钟太短，所以我们延长了它👆

第 18 周，4 月 28 日 - 5 月 4 日

本周在模型方面有重大更新

Llama 4 已发布，您可以在 HuggingFace Hub 上找到它 --> (Llama-4-Scout-17B-16E-Instruct)[https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct] 并在 H200s 或 A100s 上部署它 🔥
我们还在幕后修复了大量错误，这应该能让 Inference Endpoints 的使用体验更加流畅🙏

第 17 周，4 月 21 日 - 4 月 27 日

我们很高兴向您展示本周的更新🔥

第一个是 H200s 在推理端点中可用。总的来说，H200 在性价比方面非常好，是您追求顶级性能和运行大型模型的最佳选择
您现在还可以标记端点。这对于拥有许多不同端点的组织特别有帮助，也许是为了不同的目的。现在您可以清楚地标记属于特定组的端点。您还可以根据仪表板中的标签进行筛选

最后，我们将 OpenAI 的 whisper 自定义部署添加到了目录中。它支持一键部署，并且与以前的版本相比，性能提升高达 8 倍。您可以在（博客）https://huggingface.co/blog/fast-whisper-endpoints]中阅读更多技术细节

第 16 周，4 月 14 日 - 4 月 20 日

希望大家一切顺利🙌 本周我们

添加了更高级的容器配置功能。您可以在运行容器时覆盖默认命令并添加参数。在 95% 的情况下，您可能不需要调整此项，但如果您需要（例如，用于调试目的），您会在这里找到它

我们还将默认 TGI 版本升级到 3.2.3，TEI 版本升级到 1.7.0。因此，您默认即可获得最新和最出色的性能
本周也有两项被弃用
- TPU 硬件类型不再可用
- API 部分已删除，与用户交流后发现它带来的困惑多于解决方案

第 15 周，4 月 7 日 - 4 月 13 日

本周我们没有可见的更新内容。主要是一些幕后修复等。祝大家周末愉快 🙏

第 14 周，3 月 31 日 - 4 月 6 日

本周我们对几周前发布的全新分析页面进行了更深入的改进！

延迟分布图进行了重新设计并修复了一些错误
我们还添加了副本状态的分组视图，并且总体上改进了按副本查看数据与所有数据分组在一起的显示方式。
我们还修复了大约 5 个小的 UI 问题。其中之一是能够在浏览器中来回导航并保留分析的时间选择。虽然有些棘手，但 100% 值得。

第 13 周，3 月 24 日 - 3 月 30 日

本周我们获得了

Tessa T1 已添加到目录
运行时日志改进。我们已经很久没有碰这些了，所以它们亟待更新🙌
默认 TGI 版本更新至 3.2.1 🔥

第 12 周，3 月 17 日 - 3 月 23 日

本周大部分时间都用于改进创建新模型的体验，并强调模型目录。我们更新了 UI 并使部署卡片更具信息性。如果您的模型不在目录中，您仍然可以通过从 HuggingFace Hub 导入并自行配置部署来部署模型 🙌

第 11 周，3 月 10 日 - 3 月 16 日

本周的主要更新是分析功能更新！我们不仅对视觉效果进行了刷新，而且后端也得到了改进：您现在应该能看到实时数据🏎️

此外，Google 发布 Gemma 3 时，我们也提供了第 0 天支持，您可以在此处试用。
现在您可以将安全级别调整为“半公开”端点，仅供已认证的 Hugging Face 账户访问

第 10 周，3 月 3 日 - 3 月 9 日

本周的更新包含一些令人兴奋的新增和改进

我们已将 QwQ 和 Qwen VLM 2.5 添加到推理目录中。快来试用它们，现在您可以一键轻松部署它们。
我们还将 TGI 升级到 3.1.1 版本，带来了最新的改进。如果您部署基于 TGI 的端点，您将立即注意到其优势。
继续完善分析部分的更新，我们非常期待将它们发布给所有人 🙌

本周的更新就到这里，敬请期待更多更新！🚀

第 09 周，2 月 24 日 - 3 月 2 日

上周我们在目录中新增了 10 多个模型 🔥 其中包括 PaliGemma 2、TinyR1-32B、phi-4 和许多 Qwen 模型。

此外，我和Alvaro正在开发默认容器（也称为推理工具包）的改进版本。目前仍在进行中，但我们的想法是能够立即支持所有 Transformer、Sentence-Transformer 和 Diffuser 模型，只要模型在各自的库中实现。

TGI/TEI/llama.cpp 是专用且性能更高的服务器。而该工具包的目标是尽可能通用，并具有合理的性能。

我们还在分析部分有一些非常棒的 UI 更新即将推出 👀 敬请期待！

第 08 周，2 月 17 日 - 2 月 23 日

错误修复、模型发布和 llama.cpp 改进。这就是我们这周做的事情🔥🙌

最近发布的 Paligemma2 现在已加入目录
TGI 发布了 3.1.0 版本，我们现在默认使用该版本 💪
对 llama.cpp 支持进行了大量更新
- 现在您可以使用 llama.cpp 直接部署重排序模型，例如我们将 jina-reranker-v1-turbo-en-GGUF 添加到目录中
- 这意味着（可选且适用时）您可以更改 llama.cpp 中模型的池化方法
- 我们还将 llama.cpp 容器固定到特定版本，而不是总是默认使用最新版本。目标是提供更稳定的体验并尽可能频繁地手动更新
“超出配额”警告有时会引起混淆，尤其是当人们大幅增加最大副本数时。我们希望改进后的错误消息能有所帮助👍
本周我们还修复了各种小 bug 😅 很高兴这些问题已经解决了

第 07 周，2 月 10 日 - 2 月 16 日

本周我们对目录进行了一些更新，对 UI 进行了改进，并在幕后修复了大量 bug 🪲

simplescaling/s1-32B 已添加到目录 🔥 链接到一键部署
暂停模态框消息更清晰了，之前不太清楚暂停后底层硬件是否保留。现在看起来是这样的：
为 GGUF 模型添加了选择量化方式的下拉菜单
自动缩放到零的端点添加了唤醒按钮
现在，我们还在 Playground 中支持 OpenAI API 用于嵌入模型

第 06 周，2 月 3 日 - 2 月 9 日

本周目录又更新了。我觉得这已经是连续第三周了🚀

字节跳动首个目录项目，即 UI-TARS，旨在为代理提供原生 GUI 进行交互。快去试试吧！
您现在可以批量选择端点进行删除、暂停或恢复👀
本周我们还取消了 TensorFlow 作为部署 Transformer 模型时的后端选项。

第 05 周，1 月 27 日 - 2 月 2 日

本周我们有更多不错的目录更新和 UI 增强

我们将 Mistral-Small-24B-Instruct-2501 也添加到了目录中，点击部署
并添加了 Deepseek-R1 模型的另一个 GGUF 量化版本，现在支持 32768 最大令牌 🔥
并且改进了直接从表格中复制端点 URL 的生活质量

第 04 周，1 月 20 日 - 1 月 26 日

本周，我们 Inference Catalog 中加入了鲸鱼🐋

deepseek-r1-distill-llama-70 和 deepseek-r1-distill-qwen-32b 都可作为一键部署，并具有优化的配置
您现在还可以分享目录模型，并在社交媒体平台获得流畅的预览，如下所示：
我们还在 UI 中更清晰地指出您是否即将部署具有优化配置（即目录模型）的模型：
最后，我们开始重新制作设置页面，请告诉我们您的想法！👀
当然，我们修复了一些小 bug 🤓

第 03 周，1 月 13 日 - 1 月 19 日

本次更新带来了目录和端点管理方面超级棒的功能 🔥

现在您的端点管理界面是这样的🚀 您可以
- 过滤器
- 按不同列排序
- 批量删除

未登录也可以访问/new页面，尝试在无痕模式下打开此链接👀
我们还修复了导致文本嵌入模型部署问题的 bug，并调整了 Gemma 模型的实例推荐！

第 02 周，1 月 6 日 - 1 月 12 日

圣诞节和新年假期过后，我们又回到了良好的工作状态，并带来了一些很棒的更新！😎

下载模式📦 这里的核心思想是您应该只下载与您的端点相关的文件。只使用.safetensor文件？无需下载.pt文件。特别是如果您想优化端点的启动时间。我们现在有一个明确的设置来调整这个！
创建端点时，您无需打开完整模态框即可查看您所选择的内容，预览可见如下 🔥
我们让仪表板更加直接！默认情况下，您现在会直接进入管理端点的页面，不再有中间视图