HuggingChat 上的新图像生成助手!

介绍图像生成器 - 无审查版
直接链接:https://huggingface.co/chat/assistant/66fccce0c0fafc94ab557ef2
DeFact 组织荣幸地宣布我们在 HuggingChat 平台上推出了新的多模态图像生成助手。图像生成器 - 无审查版采用与 Image Gen+ 等流行图像生成助手类似的 URL 提示架构,并结合了新功能和改进,使该助手脱颖而出。虽然它并不完美,但它代表了使用有限的 HuggingChat 助手界面所能达到的最佳效果,并提供了一种在 HuggingChat 中使用 Qwen 2.5 (72B) 作为基础大型语言模型来生成高质量图像的方法。这很重要,因为目前平台的基于 Gradio 的工具系统不支持 Qwen 模型,而目前,如果您使用的是 HuggingChat 的免费托管版本,Qwen 2.5 恰好是功能最强大的人工智能模型。
此外,助手功能本身面向休闲用户,无论使用何种模型,都无法提供太多的工具使用或外部集成。尽管存在这些限制,但有一个众所周知的解决方法,允许用户通过利用 Pollinations AI 提供的 URL 提示服务在此和其他聊天机器人平台上生成图像;他们已经公开了他们的 API,因此无需代码即可提示他们的扩散模型,并且只需将提示附加到 HTML 或 Markdown 图像标签的 URL 即可生成图像。如果您检查任何图像生成助手(包括我们的助手)使用的提示,您会发现它们都依赖此服务。
智能模型选择 - 我们的秘密武器
我们的图像生成器 - 无审查版助手基于 KingNish 的 Image Gen+ 助手架构,Image Gen+ 目前是 HuggingChat 上最受欢迎的图像生成助手。然而,Image Gen+ 存在一些问题,即示例中缺少清晰度,无法向模型展示如何格式化其图像 URL,以及完全无法选择要使用的模型。这意味着使用这些其他助手生成的图像始终使用默认的 Pollinations 模型,目前是 Flux 模型之一。但实际上,Pollinations 实际上为用户提供了 6 种现代扩散模型选择:SD3 Turbo、Flux、Flux-3D、Flux-Realism 和“anydark”(我们不确定最后一个模型的架构是什么,但它在艺术提示方面表现良好)。我们设计了我们的助手,使其要么使用最终用户请求的模型,要么在用户未指定的情况下,它会根据图像的性质智能地选择最佳模型。
这种附加功能对输出质量产生了重大影响;它还使我们能够提供一个真正未经审查的助手,该助手可以忠实地渲染被认为是 NSFW 的图像,同时不影响用户可能希望创建的所有其他类型图像的质量。具体来说,我们指示 Qwen 2.5 LLM 在所需图像包含裸体人类形态时始终选择 SD3 Turbo,因为 Flux 在处理此类提示方面不可靠,尽管它通常是优于 SD3 Turbo 的模型。相反,Qwen 也被指示对具有 3D 渲染美感的图像使用 Flux-3D,对高细节照片级生成使用 Flux-Realism,作为生成同一提示的多个图像时的备用模型使用任何暗色,并且在其他模型都不合适时,Flux 基本模型被用作备用。
其他功能/优点
图像生成器 - 无审查版使用 KingNish 在 Image Gen+ 中引入的创新且高效的提示评分范式,其工作原理是,当您(用户)通过与助手聊天请求图像时,您的请求会根据其与理想、完整 txt2img 生成提示的接近程度进行评分。收到 A 级(或者如果您明确要求您的提示原封不动地使用)的用户请求将直接发送到图像生成模型而无需修改(始终执行轻微的 URL 编码以处理空格)。另一方面,如果您的请求模糊和笼统,它将收到较低的评分……评分越低,大型语言模型在渲染提示之前进行的增强就越多。此外,较低评分的请求会导致生成更多变体并发送到图像服务器,从而在用户意图不明确时生成更多图像。这种设计非常有效,因为这意味着当用户不确定他们想要什么时,他们会看到各种样式和解释可供选择,并且很可能会找到他们喜欢的东西。
如何使用
前往 https://huggingface.co/chat/assistant/66fccce0c0fafc94ab557ef2 并点击“新建聊天”,然后输入您的请求。如果您是新手,请先点击提供的示例并观察结果。
不要羞于指示 LLM 进行与系统指令中指定的工作流程不同的工作流程。我们已指示模型在用户指令与系统指令冲突时始终优先考虑用户指令,并且只要您的请求没有不正确地修改 URL 提示模板语法,图像就会正常渲染。
Qwen 有足够的能力理解复杂的工作流程,即使与系统提示中设定的工作流程无关。这是我们选择此模型而非 command-r-plus 的主要原因之一,后者具有更大的灵活性和更少的防护措施,但代价是提示一致性。我们认为最好为您提供高度一致和可靠的东西,并让您根据需要自行更改底层 LLM(只需复制此处的指令即可创建新的助手)
自定义工作流如何运作?只需说出您想要什么。例如,“通过详细提示并使用 6 个模型中的每个模型来创建一些迷幻仓鼠”,或者,“给我制作一系列包含仓鼠狗进行各种活动的图像。每个图像都应使用相同的种子和模型,以便它看起来像一个角色处于各种姿势”。
请在本文下方评论中分享您最喜欢的提示和生成!
示例生成
这些是通过将相关提示输入到图像生成器 - 无审查版聊天中获得的真实结果。因为用户和扩散模型之间有一个强大的大型语言模型,所以请求的格式或是否包含无关信息并不重要;事实上,这正是我们选择 Qwen 2.5 作为此助手的基本语言模型的原因,因为它具有足够的能力,无论用户的技能水平或在创建提示方面所做的努力如何,都能持续获得良好的结果。
提示:“给我画一幅凡高和格雷格·鲁特科夫斯基风格的场景,其中有大象和沙鼠”
提示:“给我画一幅弗里达·卡罗风格的画作,适合在墨西哥南部嬉皮士小镇印刷并出售给游客。它应该看起来像是由当地人类艺术家而不是人工智能完成的。”
提示:“名为 DeFact 的 AI 事实核查网站的英雄图像。它应该在任何深色背景下都很好看。”
已知问题和限制
基本限制是 Pollinations AI 是一项免费服务,负载极重。因此,输出质量略低于您通过 HuggingFace Inference 端点直接与模型交互所获得的质量(首先,生成步骤的数量受到限制——我们已经审查了 Pollinations 源代码,管道包含必要但烦人的优化,使他们能够免费提供服务并保持合理的响应速度)
还存在 Pollinations URL 或其某个合作伙伴站点 URL 被插入到某些(但不是所有)图像生成中的问题……我们使用了一个旨在禁用此水印的查询参数,但它仅部分有效,具体取决于用于渲染图像的模型。
要在 HuggingChat 上创建真正 SOTA、优质的图像生成助手,我们基本上可以考虑三种方法。社区的意见将在此处受到极大的赞赏,因此请在下方评论中留下您的想法
在我们自己的基础设施上重新部署 Pollinations prompt-in-url API,并调整设置以提高质量,正确关闭水印,并提供额外的 SOTA 模型(例如 SD3 medium、Flux.1 Dev 等)
创建我们自己的类似于 Pollinations 的 prompt-in-url 端点,但不是自托管扩散模型,我们将其作为 HuggingFace Serverless Inference 端点的基于 URL 的接口;这可以让我们通过 prompt-in-url 调用接口提供 HuggingFace 上所有可用的 txt2img 模型,该接口允许它们被任何 LLM 使用,并且是快速原型化 Web 应用程序的优秀工具……
为 HuggingChat 添加缺失的功能:对 Qwen 模型的 gradio 工具支持、助手的完整工具使用能力等。这将具有允许各种多模态和代理工作流程的优点,而不仅仅是图像生成,但缺点是它不可移植——这意味着 Image Gen - Uncensored Edition 成为另一个仅在其创建平台上才能运行的 AI 助手。当前助手的设计(以及上述解决方案 1 和 2)的优点在于它高度可移植:如果您想在另一个聊天平台上使用它,只需将指令复制并粘贴到另一个平台的系统指令中,很可能一切都可以开箱即用(我们已经证实这对于 Google AI Studio 上的 Gemini 模型以及 ChatGPT 上的自定义 GPT 来说是正确的,但是请注意,ChatGPT 似乎正在尝试阻止模型在 Markdown 中引用的图像显示——考虑到 OpenAI 是 Dalle 的创建者,并且在用户使用他们自己的 txt2img 模型方面具有商业利益,这并不奇怪)