创建您的自定义吉卜力文本到图像模型

社区文章 发布于2025年5月1日

TL;DR

虽然吉卜力风格的AI生成图像已成为全球趋势,但我们正采取独特的方法,创造出更具文化意义的东西。我们开发了一个专门的文本到图像模型,使用LoRA从Flux.1-dev扩散模型进行微调,并在精心策划的摩洛哥遗产数据集上进行训练。

只需输入提示,即可看到摩洛哥文化元素与吉卜力标志性美学无缝融合,所有这些都由最先进的AI技术提供支持。

导言

image/png 吉卜力工作室独特的艺术风格俘获了全世界的想象力,激发创作者通过其迷人的视角重新构想各种场景。从熙熙攘攘的城市景观到神秘的领域,吉卜力的美学将寻常场景转化为充满温暖和奇迹的魔幻小品。

然而,我们发现当前环境中存在两个重大挑战:

  • 可访问性问题:ChatGPT等流行工具面临免费层使用上限和服务器可用性限制,使得持续访问充满挑战。

  • 文化真实性:现有模型经常错误地描绘摩洛哥文化元素。无论是错误描绘的清真寺建筑还是错位的传统服饰,这些工具在真实捕捉摩洛哥丰富的文化遗产方面常常不足。

image/jpeg

为了解决这些挑战,我们开发了自己的专用模型,将吉卜力的艺术风格与对摩洛哥文化的真实理解相结合。最重要的是,我们正在将代码和权重都开源给社区。来试试吧!您可以在我们的Hugging Face空间体验模型:https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style

我们的方法

数据集创建

我们精心制作了11个提示,每个都旨在捕捉摩洛哥文化的独特元素。我们的选择标准侧重于:

真实的文化表现(例如,传统市集中的Zelij工匠) 简洁而富有描述性的提示 在吉卜力美学中进行艺术诠释的灵活性

数据集可在atlasia/Ghibli-style-morocco-dataset上获取,包括各种场景,例如:

  • 传统庭院
  • 麦地那街景
  • 市集中的Zellige工匠
  • 哈桑二世清真寺
  • 传统家庭场景
  • 文化仪式

我们独特的方法包括:

策划具有文化真实性的摩洛哥主题提示 利用ChatGPT以吉卜力独特风格重新构想这些场景

训练方法

我们利用ai-toolkit进行训练流程,选择它是因为其用户友好的界面和强大的功能。

关键训练参数:

  • 基础模型:FLUX.1-dev (Black Forest Labs)
  • 方法:基于LoRA的微调
  • 数据集:11张精心策划的图片及相应标题
  • Dropout率:5% 用于增加变化
  • 图像分辨率:多尺度(512×512、768×768、1024×1024)
  • 训练步数:4000
  • 批次大小:1
  • 优化器:AdamW(学习率:4e-4)
  • 噪声调度器:flowmatch
  • 架构:UNet 训练,冻结文本编码器

该模型可在atlasia/moroccan-ghibli-flux-lora获取,并提供多个检查点。

Loss_Curve

验证过程

我们每250步使用固定提示进行验证,以跟踪进展:

初始状态(第0步):模型生成真实但风格不一致的图像,缺乏吉卜力标志性的梦幻质感。

image/png

早期进展(第250步):风格适应迅速改善,显示出可喜的结果。

image/png

后期阶段:模型在后期步骤开始出现过拟合迹象。

image/png

模型使用

要使用我们的模型,您需要在提示中包含触发词“Moroccan Ghibli studio style”。这里有一个简单的例子:


import torch
from diffusers import FluxPipeline
from huggingface_hub import hf_hub_download

# Load base model
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev", 
    torch_dtype=torch.bfloat16
)
# Load LoRA weights
lora_path = hf_hub_download(
    repo_id="atlasia/moroccan-ghibli-flux-lora",
    filename="moroccan_ghibli_flux_lora_000001250.safetensors",
    revision="step_1250"
)
pipe.load_lora_weights(lora_path)

# Generate image
prompt = "Moroccan Ghibli studio style traditional riad courtyard"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50
).images[0]

效果良好的示例提示:

  • “摩洛哥吉卜力工作室风格的传统庭院与喷泉”:image/webp “日落时分麦地那街景的摩洛哥吉卜力工作室风格”:image/webp
  • “传统茶道摩洛哥吉卜力工作室风格”:image/webp
  • “古老宫殿内部的摩洛哥吉卜力工作室风格” image/webp

结论

我们的研究结果表明,即使经过最少的微调,模型也能生成具有丰富文化内涵和风格一致性的图像。这表明精心策划的小规模数据集可以产生显著的效果,为更有针对性和高效的模型训练打开了大门。

道德考量

我们承认所有艺术创作的功劳归属于宫崎骏和吉卜力工作室。我们的项目纯粹是研究驱动的,旨在研究文化、风格和机器学习的交叉点。我们已将模型和权重开源,以支持研究社区,同时坚决反对任何未经授权的艺术家风格商业使用。

未来方向

我们的路线图包括:

  • 用更多样化的摩洛哥场景扩展我们的数据集
  • 探索其他动画风格,同时尊重艺术完整性
  • 实现风格强度控制
  • 创建全面的微调教程

致谢

我们向所有项目合作者表示感谢:Anas Amchaar, Nouamane Tazi, Abdellah Oumida, Mohammed Sbaihi, Abdeljalil Elmajjodi, Zaid Chiech, Ibtissam Achaoui, Oumayma Essarhi, Abdelaziz Guelfane。

特别感谢Hugging Face对我们社区的赞助。

加入我们的社区

image/jpeg

引用

@article{atlasia2025Ghibli_Model_v1,
  title={Creating your custom Ghibli Text-to-Image model},
  author={Amchaar Anas, Oumida Abdellah, Abdeljalil Elmajjodi},
  year={2025},
  url={https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style}
  organization={AtlasIA}
}

社区

注册登录 发表评论