Hunyuan Custom - 一个小型单主题研究

社区文章 发布于 2025 年 7 月 12 日

自发布以来,我几乎没看到有人谈论 Hunyuan Custom。当然,它被 Wan VACE 的热潮所掩盖,但它真的在所有方面都逊色吗?我一直想了解一下它的能力,并最终决定投入一些精力去探索。我不会在这篇文章中提出任何断言,但我会展示它能做的一些事情。把它看作一篇“Hunyuan Custom 入门”类型的文章。

我使用了默认的 ComfyUI Hunyuan Wrapper 工作流,并从我最近一直在使用的一张可靠的图片开始。如果你曾好奇由肖恩·宾在 80 年代版《指环王》中饰演的金雳会是什么样子,我想这张图会给你一些线索。

image/png

这个工作流是用于最初发布的单一图像到视频的参考,而不是新的视频和音频响应模型。

我将跳过许多无聊的迭代,直接告诉你我花了相当长的时间才从这里

这张图看起来完全不是我想要的,到这里

这张图至少与我的参考图片有些相似,但看起来仍然很糟糕。相同的提示,不同的步数、flow_shift 和 cfg。这可能是由于我用于推理的低分辨率造成的,但这个模型似乎非常不稳定,找不到更好的词来形容。这些值的微小变化会完全改变输出。幸运的是,其他一些生成效果更好。我最终得到了一些相当不错的结果(尽管分辨率较低)

步数:30(任何更高的值都会失去与输入的相似性)

Flow_shift:16.55(同样,偏差过大也会失去相似性)。再高很多会使图像变暗。

Cfg:9.50(大约 10 似乎是一个不错的阈值)

在这里,我还通过查看示例提示,使用“high quality”(高质量)和“cinematic”(电影感)“改进”了提示。感觉很 2023 年。我还使用了我的 80 年代奇幻 LoRA,但不确定它是否产生了很大影响。

此后,我决定稍微转移一下焦点,看看它在不同场景下风格转移的效果如何。在我看来,这些例子更好地证明了 Custom 的优势。

“男人坐在游乐场的秋千上,茫然地凝视着远方。电影感。高质量”

步数:30

Flow_shift:18.50

Cfg:8.50

“男人在超市买菜。他检查一根胡萝卜。电影感。写实。”

步数:30

Flow_shift:15.49

Cfg:11.77

我尝试了其他一些参考和角色,得到了不同的结果,但以下是一些一般性发现

  • 对肖像风格的图像效果很好 -> 肖像/特写镜头。可能相同 -> 相同,但我缺乏这方面的例子,无法证明这一点。
  • 不适合背景转移。我曾尝试使用一张背景图片并插入一些角色或动作,但图片会晃动和变形。
  • 很好地保留了图像的风格。我的例子应该能说明这一点。
  • Hunyuan LoRA“有效”,但效果不如 Framepack。该模型可能更偏离原始模型进行了微调。我希望在不久的将来进行一些 LoRA 实验。

总而言之,它有潜力,但有时感觉有点原始和不灵敏。我非常喜欢我得到的一些结果,但有时得到这些结果却令人沮丧地漫长。

社区

注册登录 以评论