走向多模态:Prezi 如何利用 Hub 和专家支持计划加速其机器学习路线图
众所周知,一张出色的视觉图像胜过千言万语。视觉通讯软件公司 Prezi 的团队正在将这一理念付诸实践,他们的 Prezi 演示文稿将图像和文本结合在高度动态的演示中。
Prezi 已加入 Hugging Face 专家支持计划,以充分利用现代机器学习的潜力。在过去的几个月里,Hugging Face 支持 Prezi 将更小、更高效的开源模型集成到其机器学习工作流中。随着多模态模型的能力日益增强,这项合作恰逢其时。
我们最近与 Prezi 的后端工程师 Máté Börcsök 坐下来,谈论了他们参与 的经验。在这段简短的视频中,Máté 向我们介绍了他们的一些机器学习工作,并分享了他们通过专家支持计划与我们团队合作的经验。
如果您想像 Máté 和他的团队一样,在我们的专家帮助下加速您的机器学习路线图,请访问
了解更多关于我们的专家支持计划并索取报价。附带额外细节的文字记录:
介绍
我叫 Máté,是 Prezi 的一名后端工程师。Prezi 是一款能将您的想法变为现实的在线演示工具。
HF 专家支持计划如何帮助您构建 AI?
我们在 Prezi 的旗舰 AI 产品是 Prezi AI,它能帮助我们的用户更快地创建更好的 Prezi 演示文稿。用户首先提供一个提示和他们想要创建的演示文稿的描述。然后系统会自动为他们创建一个演示文稿草稿。这是一个复杂的系统,它调用不同的服务,并使用闭源模型和各种素材提供商服务来构建演示文稿的结构。
当我们加入该计划时,我们已经有了这个系统的一个版本,我们的专家审查了流程并提出了改进建议。我们的流程包括一个搜索系统,为每个独特的演示文稿找到合适的素材(图像和文本)。在这种情况下,一个重要的建议是,例如,在系统中添加一个开源的重排(re-ranker)模型,它可以比大型语言模型 (LLM) 更便宜、更快、更好地为您的演示文稿找到最佳的图像或文本。
我们的用例本质上是多模态的,因为我们的演示文稿结合了图像和文本。每周都有很多新模型发布,我们的专家帮助我们拨开炒作的迷雾,了解哪些模型对我们有用,哪些没有。这帮助我们节省了大量时间,因为我们正在使用视觉模型、文本模型和视觉语言模型 (VLM) 的组合来解决我们独特的挑战。多模态机器学习具有挑战性,我们非常感谢得到的指导。我们不是机器学习工程师,我们正在一起学习成长的路上。
您最喜欢 Inference Endpoints 的哪个功能?
我强烈建议您查看端点模型目录。这是一个精选的模型列表,它们能与 Inference Endpoints 很好地配合,并且无需任何配置。我喜欢你可以设置端点在几分钟后进入休眠状态,这样就不会烧钱。它还支持某些模型所需的单核和四核 A100 实例。保持模型更新也非常简单。Inference Endpoints 让我们只需单击一下即可部署最新版本,或使用 Git 哈希回滚到任何旧版本。这些功能在 AWS 上都不容易获得,所以使用它们对我们来说非常方便。即使某个模型还不在目录中,让它们工作也相对容易。至少在我们的专家支持下,对我来说是这样。
哪些团队能从专家支持中获益最多?
与 Hugging Face 的合作关系为我们打开了机器学习的大门。我们的专属专家让我们能够接触到一个机器学习专家社区,他们可以对我们最大胆的问题给出反馈。正如我之前所说,我们不是机器学习工程师。我们的专家指导我们做正确的事情,分享嵌入、重排和对象检测的最佳实践和最先进的模型,并向我们展示如何微调新的视觉语言模型以及收集和整理数据。这些大多是我们自己可以做的事情,但他的指导极大地提高了我们的速度,并使我们能够专注于为用户完成有意义的任务。
通过专家支持计划,我们组建了一支世界级的团队,帮助客户更快地构建更好的机器学习解决方案。我们的专家在您从研究到生产的机器学习旅程中,根据需要回答问题并找到解决方案。请访问
了解更多信息并索取报价。