创建您的自定义吉卜力文本到图像模型

社区文章发布于2025年5月1日

摘要

引言

我们的方法
数据集创建

训练方法

验证过程

模型使用

结论
道德考量

未来方向

致谢

加入我们的社区

引用

TL;DR

虽然吉卜力风格的AI生成图像已成为全球趋势，但我们正采取独特的方法，创造出更具文化意义的东西。我们开发了一个专门的文本到图像模型，使用LoRA从Flux.1-dev扩散模型进行微调，并在精心策划的摩洛哥遗产数据集上进行训练。

只需输入提示，即可看到摩洛哥文化元素与吉卜力标志性美学无缝融合，所有这些都由最先进的AI技术提供支持。

导言

吉卜力工作室独特的艺术风格俘获了全世界的想象力，激发创作者通过其迷人的视角重新构想各种场景。从熙熙攘攘的城市景观到神秘的领域，吉卜力的美学将寻常场景转化为充满温暖和奇迹的魔幻小品。

然而，我们发现当前环境中存在两个重大挑战：

可访问性问题：ChatGPT等流行工具面临免费层使用上限和服务器可用性限制，使得持续访问充满挑战。
文化真实性：现有模型经常错误地描绘摩洛哥文化元素。无论是错误描绘的清真寺建筑还是错位的传统服饰，这些工具在真实捕捉摩洛哥丰富的文化遗产方面常常不足。

为了解决这些挑战，我们开发了自己的专用模型，将吉卜力的艺术风格与对摩洛哥文化的真实理解相结合。最重要的是，我们正在将代码和权重都开源给社区。来试试吧！您可以在我们的Hugging Face空间体验模型：https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style

我们的方法

数据集创建

我们精心制作了11个提示，每个都旨在捕捉摩洛哥文化的独特元素。我们的选择标准侧重于：

真实的文化表现（例如，传统市集中的Zelij工匠）简洁而富有描述性的提示在吉卜力美学中进行艺术诠释的灵活性

数据集可在atlasia/Ghibli-style-morocco-dataset上获取，包括各种场景，例如：

传统庭院
麦地那街景
市集中的Zellige工匠
哈桑二世清真寺
传统家庭场景
文化仪式

我们独特的方法包括：

策划具有文化真实性的摩洛哥主题提示利用ChatGPT以吉卜力独特风格重新构想这些场景

训练方法

我们利用ai-toolkit进行训练流程，选择它是因为其用户友好的界面和强大的功能。

关键训练参数：

基础模型：FLUX.1-dev (Black Forest Labs)
方法：基于LoRA的微调
数据集：11张精心策划的图片及相应标题
Dropout率：5% 用于增加变化
图像分辨率：多尺度（512×512、768×768、1024×1024）
训练步数：4000
批次大小：1
优化器：AdamW（学习率：4e-4）
噪声调度器：flowmatch
架构：UNet 训练，冻结文本编码器

该模型可在atlasia/moroccan-ghibli-flux-lora获取，并提供多个检查点。

验证过程

我们每250步使用固定提示进行验证，以跟踪进展：

初始状态（第0步）：模型生成真实但风格不一致的图像，缺乏吉卜力标志性的梦幻质感。

早期进展（第250步）：风格适应迅速改善，显示出可喜的结果。

后期阶段：模型在后期步骤开始出现过拟合迹象。

模型使用

要使用我们的模型，您需要在提示中包含触发词“Moroccan Ghibli studio style”。这里有一个简单的例子：


import torch
from diffusers import FluxPipeline
from huggingface_hub import hf_hub_download

# Load base model
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev", 
    torch_dtype=torch.bfloat16
)
# Load LoRA weights
lora_path = hf_hub_download(
    repo_id="atlasia/moroccan-ghibli-flux-lora",
    filename="moroccan_ghibli_flux_lora_000001250.safetensors",
    revision="step_1250"
)
pipe.load_lora_weights(lora_path)

# Generate image
prompt = "Moroccan Ghibli studio style traditional riad courtyard"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50
).images[0]

效果良好的示例提示：

“摩洛哥吉卜力工作室风格的传统庭院与喷泉”： “日落时分麦地那街景的摩洛哥吉卜力工作室风格”：
“传统茶道摩洛哥吉卜力工作室风格”：
“古老宫殿内部的摩洛哥吉卜力工作室风格”

结论

我们的研究结果表明，即使经过最少的微调，模型也能生成具有丰富文化内涵和风格一致性的图像。这表明精心策划的小规模数据集可以产生显著的效果，为更有针对性和高效的模型训练打开了大门。

道德考量

我们承认所有艺术创作的功劳归属于宫崎骏和吉卜力工作室。我们的项目纯粹是研究驱动的，旨在研究文化、风格和机器学习的交叉点。我们已将模型和权重开源，以支持研究社区，同时坚决反对任何未经授权的艺术家风格商业使用。

未来方向

我们的路线图包括：

用更多样化的摩洛哥场景扩展我们的数据集
探索其他动画风格，同时尊重艺术完整性
实现风格强度控制
创建全面的微调教程

致谢

我们向所有项目合作者表示感谢：Anas Amchaar, Nouamane Tazi, Abdellah Oumida, Mohammed Sbaihi, Abdeljalil Elmajjodi, Zaid Chiech, Ibtissam Achaoui, Oumayma Essarhi, Abdelaziz Guelfane。

特别感谢Hugging Face对我们社区的赞助。

加入我们的社区

网站：https://www.atlasia.ma/
Hugging Face：https://huggingface.co/atlasia

引用

@article{atlasia2025Ghibli_Model_v1,
  title={Creating your custom Ghibli Text-to-Image model},
  author={Amchaar Anas, Oumida Abdellah, Abdeljalil Elmajjodi},
  year={2025},
  url={https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style}
  organization={AtlasIA}
}

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论

创建您的自定义吉卜力文本到图像模型

摘要 引言 我们的方法 数据集创建 训练方法 验证过程 模型使用 结论 道德考量 未来方向 致谢 加入我们的社区 引用 TL;DR

导言

我们的方法

数据集创建

训练方法

验证过程

模型使用

结论

道德考量

未来方向

致谢

加入我们的社区

引用

社区

摘要

引言

我们的方法
数据集创建

训练方法

验证过程

模型使用

结论
道德考量

未来方向

致谢

加入我们的社区

引用

TL;DR