创建您的自定义吉卜力文本到图像模型
TL;DR
虽然吉卜力风格的AI生成图像已成为全球趋势,但我们正采取独特的方法,创造出更具文化意义的东西。我们开发了一个专门的文本到图像模型,使用LoRA从Flux.1-dev扩散模型进行微调,并在精心策划的摩洛哥遗产数据集上进行训练。
只需输入提示,即可看到摩洛哥文化元素与吉卜力标志性美学无缝融合,所有这些都由最先进的AI技术提供支持。
导言
吉卜力工作室独特的艺术风格俘获了全世界的想象力,激发创作者通过其迷人的视角重新构想各种场景。从熙熙攘攘的城市景观到神秘的领域,吉卜力的美学将寻常场景转化为充满温暖和奇迹的魔幻小品。
然而,我们发现当前环境中存在两个重大挑战:
可访问性问题:ChatGPT等流行工具面临免费层使用上限和服务器可用性限制,使得持续访问充满挑战。
文化真实性:现有模型经常错误地描绘摩洛哥文化元素。无论是错误描绘的清真寺建筑还是错位的传统服饰,这些工具在真实捕捉摩洛哥丰富的文化遗产方面常常不足。
为了解决这些挑战,我们开发了自己的专用模型,将吉卜力的艺术风格与对摩洛哥文化的真实理解相结合。最重要的是,我们正在将代码和权重都开源给社区。来试试吧!您可以在我们的Hugging Face空间体验模型:https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style
我们的方法
数据集创建
我们精心制作了11个提示,每个都旨在捕捉摩洛哥文化的独特元素。我们的选择标准侧重于:
真实的文化表现(例如,传统市集中的Zelij工匠) 简洁而富有描述性的提示 在吉卜力美学中进行艺术诠释的灵活性
数据集可在atlasia/Ghibli-style-morocco-dataset上获取,包括各种场景,例如:
- 传统庭院
- 麦地那街景
- 市集中的Zellige工匠
- 哈桑二世清真寺
- 传统家庭场景
- 文化仪式
我们独特的方法包括:
策划具有文化真实性的摩洛哥主题提示 利用ChatGPT以吉卜力独特风格重新构想这些场景
训练方法
我们利用ai-toolkit进行训练流程,选择它是因为其用户友好的界面和强大的功能。
关键训练参数:
- 基础模型:FLUX.1-dev (Black Forest Labs)
- 方法:基于LoRA的微调
- 数据集:11张精心策划的图片及相应标题
- Dropout率:5% 用于增加变化
- 图像分辨率:多尺度(512×512、768×768、1024×1024)
- 训练步数:4000
- 批次大小:1
- 优化器:AdamW(学习率:4e-4)
- 噪声调度器:flowmatch
- 架构:UNet 训练,冻结文本编码器
该模型可在atlasia/moroccan-ghibli-flux-lora获取,并提供多个检查点。
验证过程
我们每250步使用固定提示进行验证,以跟踪进展:
初始状态(第0步):模型生成真实但风格不一致的图像,缺乏吉卜力标志性的梦幻质感。
早期进展(第250步):风格适应迅速改善,显示出可喜的结果。
后期阶段:模型在后期步骤开始出现过拟合迹象。
模型使用
要使用我们的模型,您需要在提示中包含触发词“Moroccan Ghibli studio style”。这里有一个简单的例子:
import torch
from diffusers import FluxPipeline
from huggingface_hub import hf_hub_download
# Load base model
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.bfloat16
)
# Load LoRA weights
lora_path = hf_hub_download(
repo_id="atlasia/moroccan-ghibli-flux-lora",
filename="moroccan_ghibli_flux_lora_000001250.safetensors",
revision="step_1250"
)
pipe.load_lora_weights(lora_path)
# Generate image
prompt = "Moroccan Ghibli studio style traditional riad courtyard"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50
).images[0]
效果良好的示例提示:
结论
我们的研究结果表明,即使经过最少的微调,模型也能生成具有丰富文化内涵和风格一致性的图像。这表明精心策划的小规模数据集可以产生显著的效果,为更有针对性和高效的模型训练打开了大门。
道德考量
我们承认所有艺术创作的功劳归属于宫崎骏和吉卜力工作室。我们的项目纯粹是研究驱动的,旨在研究文化、风格和机器学习的交叉点。我们已将模型和权重开源,以支持研究社区,同时坚决反对任何未经授权的艺术家风格商业使用。
未来方向
我们的路线图包括:
- 用更多样化的摩洛哥场景扩展我们的数据集
- 探索其他动画风格,同时尊重艺术完整性
- 实现风格强度控制
- 创建全面的微调教程
致谢
我们向所有项目合作者表示感谢:Anas Amchaar, Nouamane Tazi, Abdellah Oumida, Mohammed Sbaihi, Abdeljalil Elmajjodi, Zaid Chiech, Ibtissam Achaoui, Oumayma Essarhi, Abdelaziz Guelfane。
特别感谢Hugging Face对我们社区的赞助。
加入我们的社区
- 网站:https://www.atlasia.ma/
- Hugging Face:https://huggingface.co/atlasia
引用
@article{atlasia2025Ghibli_Model_v1,
title={Creating your custom Ghibli Text-to-Image model},
author={Amchaar Anas, Oumida Abdellah, Abdeljalil Elmajjodi},
year={2025},
url={https://huggingface.co/spaces/atlasia/flux_moroccan_ghibli_style}
organization={AtlasIA}
}