推理端点更新日志 🚀
第 23 周,6 月 2 日 - 6 月 8 日
本周最大的更新来了:我们很高兴推出审计日志和 vLLM 容器类型!🎉
通过审计日志,您现在可以详细跟踪所有端点活动。非常适合安全和合规性,让您完全了解谁在何时做了什么。请注意,审计日志是企业功能,您可以在此处 🙌注册
在容器方面,我们推出了 vLLM 容器类型,这进一步拓宽了可以使用高性能推理引擎运行的模型选择。快来试试并告诉我们您的反馈!
第 22 周,5 月 26 日 - 6 月 1 日
本周我们没有对用户可见的更新。工作主要在后端和幕后进行。我保证会有好东西到来🤫
第 21 周,5 月 19 日 - 5 月 25 日
本周我们为您带来了两项重大更新
全局导航更新。目标是让加入多个组织的用户更清楚地了解自己当前在哪一个组织。如何轻松确保我的个人组织不与业务账户混淆?通过此更新,我们分离了视图,希望能使事情更清晰、更易于导航🙌
将默认 TGI 版本升级到 3.3.1。最新的 TGI 版本已经发布,当您部署新的端点时,您将默认获得所有优势🔥
第 20 周,5 月 12 日 - 5 月 18 日
ngxson 为 llama.cpp 添加图像-文本到文本模型的重要工作也已在推理端点中实现🔥
例如,您可以从目录中部署Qwen2.5-VL-7B-Instruct-Q8_0.gguf。我们将自动为您选择多模态投影文件
我们还在通知方面进行了一些生活质量改进。应该只弹出一个提示,询问您是否希望接收浏览器通知,并且此偏好将保存在您的浏览器中👍
第 19 周,5 月 5 日 - 5 月 11 日
本周我们的工作量相对较小,但我们根据用户反馈做了一个小改动:默认的自动缩放到零超时现在是 1 小时,而不是 15 分钟。用户普遍认为 15 分钟太短,所以我们延长了它👆
第 18 周,4 月 28 日 - 5 月 4 日
本周在模型方面有重大更新
- Llama 4 已发布,您可以在 HuggingFace Hub 上找到它 --> (Llama-4-Scout-17B-16E-Instruct)[https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct] 并在 H200s 或 A100s 上部署它 🔥
- 我们还在幕后修复了大量错误,这应该能让 Inference Endpoints 的使用体验更加流畅🙏
第 17 周,4 月 21 日 - 4 月 27 日
我们很高兴向您展示本周的更新🔥
第一个是 H200s 在推理端点中可用。总的来说,H200 在性价比方面非常好,是您追求顶级性能和运行大型模型的最佳选择
您现在还可以标记端点。这对于拥有许多不同端点的组织特别有帮助,也许是为了不同的目的。现在您可以清楚地标记属于特定组的端点。您还可以根据仪表板中的标签进行筛选
- 最后,我们将 OpenAI 的 whisper 自定义部署添加到了目录中。它支持一键部署,并且与以前的版本相比,性能提升高达 8 倍。您可以在(博客)https://huggingface.co/blog/fast-whisper-endpoints]中阅读更多技术细节
第 16 周,4 月 14 日 - 4 月 20 日
希望大家一切顺利🙌 本周我们
- 添加了更高级的容器配置功能。您可以在运行容器时覆盖默认命令并添加参数。在 95% 的情况下,您可能不需要调整此项,但如果您需要(例如,用于调试目的),您会在这里找到它
我们还将默认 TGI 版本升级到 3.2.3,TEI 版本升级到 1.7.0。因此,您默认即可获得最新和最出色的性能
本周也有两项被弃用
- TPU 硬件类型不再可用
- API 部分已删除,与用户交流后发现它带来的困惑多于解决方案
第 15 周,4 月 7 日 - 4 月 13 日
本周我们没有可见的更新内容。主要是一些幕后修复等。祝大家周末愉快 🙏
第 14 周,3 月 31 日 - 4 月 6 日
本周我们对几周前发布的全新分析页面进行了更深入的改进!
我们还添加了副本状态的分组视图,并且总体上改进了按副本查看数据与所有数据分组在一起的显示方式。
我们还修复了大约 5 个小的 UI 问题。其中之一是能够在浏览器中来回导航并保留分析的时间选择。虽然有些棘手,但 100% 值得。
第 13 周,3 月 24 日 - 3 月 30 日
本周我们获得了
第 12 周,3 月 17 日 - 3 月 23 日
本周大部分时间都用于改进创建新模型的体验,并强调模型目录。我们更新了 UI 并使部署卡片更具信息性。如果您的模型不在目录中,您仍然可以通过从 HuggingFace Hub 导入并自行配置部署来部署模型 🙌
第 11 周,3 月 10 日 - 3 月 16 日
本周的主要更新是分析功能更新!我们不仅对视觉效果进行了刷新,而且后端也得到了改进:您现在应该能看到实时数据🏎️
- 此外,Google 发布 Gemma 3 时,我们也提供了第 0 天支持,您可以在此处试用。
- 现在您可以将安全级别调整为“半公开”端点,仅供已认证的 Hugging Face 账户访问
第 10 周,3 月 3 日 - 3 月 9 日
本周的更新包含一些令人兴奋的新增和改进
- 我们已将 QwQ 和 Qwen VLM 2.5 添加到推理目录中。快来试用它们,现在您可以一键轻松部署它们。
- 我们还将 TGI 升级到 3.1.1 版本,带来了最新的改进。如果您部署基于 TGI 的端点,您将立即注意到其优势。
- 继续完善分析部分的更新,我们非常期待将它们发布给所有人 🙌
本周的更新就到这里,敬请期待更多更新!🚀
第 09 周,2 月 24 日 - 3 月 2 日
上周我们在目录中新增了 10 多个模型 🔥 其中包括 PaliGemma 2、TinyR1-32B、phi-4 和许多 Qwen 模型。
此外,我和Alvaro正在开发默认容器(也称为推理工具包)的改进版本。目前仍在进行中,但我们的想法是能够立即支持所有 Transformer、Sentence-Transformer 和 Diffuser 模型,只要模型在各自的库中实现。
TGI/TEI/llama.cpp 是专用且性能更高的服务器。而该工具包的目标是尽可能通用,并具有合理的性能。
我们还在分析部分有一些非常棒的 UI 更新即将推出 👀 敬请期待!
第 08 周,2 月 17 日 - 2 月 23 日
错误修复、模型发布和 llama.cpp 改进。这就是我们这周做的事情🔥🙌
- 最近发布的 Paligemma2 现在已加入目录
- TGI 发布了 3.1.0 版本,我们现在默认使用该版本 💪
- 对 llama.cpp 支持进行了大量更新
- 现在您可以使用 llama.cpp 直接部署重排序模型,例如我们将 jina-reranker-v1-turbo-en-GGUF 添加到目录中
- 这意味着(可选且适用时)您可以更改 llama.cpp 中模型的池化方法
- 我们还将 llama.cpp 容器固定到特定版本,而不是总是默认使用最新版本。目标是提供更稳定的体验并尽可能频繁地手动更新
- “超出配额”警告有时会引起混淆,尤其是当人们大幅增加最大副本数时。我们希望改进后的错误消息能有所帮助👍
- 本周我们还修复了各种小 bug 😅 很高兴这些问题已经解决了
第 07 周,2 月 10 日 - 2 月 16 日
本周我们对目录进行了一些更新,对 UI 进行了改进,并在幕后修复了大量 bug 🪲
- simplescaling/s1-32B 已添加到目录 🔥 链接到一键部署
- 暂停模态框消息更清晰了,之前不太清楚暂停后底层硬件是否保留。现在看起来是这样的:
- 为 GGUF 模型添加了选择量化方式的下拉菜单
- 自动缩放到零的端点添加了唤醒按钮
- 现在,我们还在 Playground 中支持 OpenAI API 用于嵌入模型
第 06 周,2 月 3 日 - 2 月 9 日
本周目录又更新了。我觉得这已经是连续第三周了🚀
- 字节跳动首个目录项目,即 UI-TARS,旨在为代理提供原生 GUI 进行交互。快去试试吧!
- 您现在可以批量选择端点进行删除、暂停或恢复👀
- 本周我们还取消了 TensorFlow 作为部署 Transformer 模型时的后端选项。
第 05 周,1 月 27 日 - 2 月 2 日
本周我们有更多不错的目录更新和 UI 增强
- 我们将 Mistral-Small-24B-Instruct-2501 也添加到了目录中,点击部署
- 并添加了 Deepseek-R1 模型的另一个 GGUF 量化版本,现在支持 32768 最大令牌 🔥
- 并且改进了直接从表格中复制端点 URL 的生活质量
第 04 周,1 月 20 日 - 1 月 26 日
本周,我们 Inference Catalog 中加入了鲸鱼🐋
- deepseek-r1-distill-llama-70 和 deepseek-r1-distill-qwen-32b 都可作为一键部署,并具有优化的配置
- 您现在还可以分享目录模型,并在社交媒体平台获得流畅的预览,如下所示:
- 我们还在 UI 中更清晰地指出您是否即将部署具有优化配置(即目录模型)的模型:
- 最后,我们开始重新制作设置页面,请告诉我们您的想法!👀
- 当然,我们修复了一些小 bug 🤓
第 03 周,1 月 13 日 - 1 月 19 日
本次更新带来了目录和端点管理方面超级棒的功能 🔥
- 现在您的端点管理界面是这样的🚀 您可以
- 过滤器
- 按不同列排序
- 批量删除
- 未登录也可以访问
/new
页面,尝试在无痕模式下打开此链接👀 - 我们还修复了导致文本嵌入模型部署问题的 bug,并调整了 Gemma 模型的实例推荐!
第 02 周,1 月 6 日 - 1 月 12 日
圣诞节和新年假期过后,我们又回到了良好的工作状态,并带来了一些很棒的更新!😎
圣诞节和新年周,12 月 15 日 - 1 月 5 日
我将把几周的更新与我们度过的假期合并在一起。自上次以来,我们在以下方面取得了一些不错的进展:
- 将 llama.cpp 支持的模型添加到了目录中 🔥 在此处查看它们
- 修复了
/new
页面上的 bug - 修复了容器中更新密码相关的 bug
- 在后台做了许多细致的工作
- 为新的一年重新充电 💪
第 50 周,12 月 9 日 - 12 月 15 日
本周的最大更新是 TGI v3 的发布 🔥 您可以在此处阅读所有关于此更新的信息,但简而言之就是
- 零配置
- 性能提升
我们还
- 改进了达到配额时 UI 中的消息提示
- 进行了小幅错误修复
第 49 周,12 月 2 日 - 12 月 8 日
本周我们有许多不错的更新🚀
/new
页面的 UI 全面改进 🙌 我们的目标是使配置更清晰并删除过时的字段,未来会有更多更新,但我们认为这已经是一个不错的改进。
- 您现在可以配置自动缩放的硬件利用率阈值。
- 许多模型现在支持 inf2 加速器。
- Mixtral-8x7B 现在支持 TPU。
第 48 周,11 月 25 日 - 12 月 1 日
本周我们终于在异地和流感之后恢复了工作 🔥
更新
- 如果您根据待处理请求自动扩展,您可以手动设置阈值以满足您的特定要求
- 您现在可以查看更早的历史日志。最多可查看特定部署的最后 50 个副本。
- 新模型已添加到目录中,例如 Qwen2-VL-7B-Instruct 和 Qwen2.5-Coder-32B-Instruct。
- 默认 TGI 版本更新至 2.4.1
- 添加了 CPU 作为 llama.cpp 容器类型的替代方案(感谢@ngxson)
- 修复了目录模型的修订链接和默认硬件配置问题。
- 默认的缩放到零超时现在是 15 分钟。以前是永不缩放到零。
第 47 周,11 月 18 日 - 11 月 24 日
不幸的是,我们的团队遭受了流感袭击,需要一些时间恢复🤒 本周没有更新,但请继续关注下周——我们有很多令人兴奋的事情即将到来!🔥
第 46 周,11 月 11 日 - 11 月 17 日
本周没有变化,因为团队在马提尼克岛举行了异地会议!但为下周积蓄了大量想法和能量 🙌
第 45 周,11 月 4 日 - 11 月 10 日
本周,我们终于发布了一些很棒的更新 🙌
- 根据待处理请求扩展副本功能现在处于测试阶段 🔥 由于它是测试功能,可能会有所变化,但您可以尝试一下,并在此处阅读更多信息
- 改进了分析功能,增加了副本历史图表
- 小部件更新
- 修复了流式传输中的错误
- 现在可以清除会话
- 使用 cmd+enter 提交消息
第 44 周,10 月 28 日 - 11 月 3 日
本周最大的更新可能是推理目录的改版🔥 您现在可以通过一键部署,根据以下条件查找模型:
此外
- 我们修复了
MoritzLaurer/deberta-v3-large-zeroshot-v2.0
的配置,使其也能在 CPU 上运行 - 还要感谢@ngxson修复了 llama.cpp 片段中的一个错误
第 43 周,10 月 21-27 日
本周您将抢先体验即将推出的自动扩展功能,以分析的形式呈现 👀
我们有
- 在分析中添加了待处理的 HTTP 请求
- 支持图像到文本(Image-Text-To-Text),又称语言视觉模型 🔥(llama vision 有一些不错的笑话😅)
- 改进了日志分页并添加了一些漂亮的视觉效果
- 修复了分析中总请求计数相关的错误
第 42 周,10 月 14-20 日
本周对面向用户的更新而言,进展不幸较慢。
在幕后,我们
- 修复了 LLaMA 和 Qwen 2 的几个推荐值,
- 改进了我们的内部分析,
- 调试了与权重下载和收到 429 错误相关的问题,
- 希望能修复所有剩余的 bug,以便我们能尽快发布新的自动扩展功能 🔥
第 41 周,10 月 7-13 日
本周我们对 UI/UX 进行了大量改进
此外
- “text2text-generation”任务已弃用,在 Hub 和推理 API 中均已弃用
- 现在可以在 diffuser 模型的组件中传入“seed”参数
- llama.cpp 容器的小错误修复
- 可以直接在组件中使用 OpenAI API 参数进行操作
- 特别感谢 Alvaro 使 NVLM-D-72B 模型兼容端点 🙌
在后端,我们也在改进自动扩缩。这可能不会立即对用户产生明显影响,但很快也会波及前端。敬请关注 👀