Hunyuan video LoRA 训练研究(单图像/风格训练)

社区文章 发布于 2025 年 1 月 27 日

这是我 LTX-Video LoRa 训练研究的后续

我终于着手配置了 Hunyuan 推理和训练,并让我的可怜的 3090 显卡开始工作。

在 comfy 中生成大约需要 17GB 显存,训练也大约需要 18GB。

这些都是 400 步或 100 世代训练的结果,耗时 1 小时 37 分钟。大约是 LTX LoRa 4000 步训练时间的一半。

由于生成时间(LTX 在这方面明显胜出),这不像 LTX 文章那样广泛,但在其他方面,我更倾向于 Hunyuan。

训练使用 diffusers 和 finetrainers 作为后端

finetrainers-ui 作为 GUI(我自己的项目)

推理使用 ComfyUI 核心节点,应用此解决方法以允许加载 loras。

LoRA 可在此处获取:https://huggingface.co/neph1/hunyuan_night_graveyard

数据集图像

no lora

未加载 LoRA

no lora

看起来相当不错,实际上。但和我的数据集不一样,这很好。

400 步训练

LoRA 强度变化,4.0 指导,20 推理步,(0.60, 0.8, 1.0)

0.6 0.8 1.0

指导变化,20 推理步,(2.0, 4.0, 6.0)

2.0 4.0 6.0

降低指导会使其看起来更自然,这可能是预期中的,因为 LoRA 的风格不是真实的

步数变化,6.0 指导,(15, 20, 25)

15 20 25

嗯,20 步和 25 步之间差异不大,但 25 步更清晰一些。为了那几分钟的额外时间,25 步值得吗?15 步 - 164 秒。20 步 - 217 秒。25 步 - 262 秒。

灵活性,提示变化,4.0 指导,20 步,强度 1.0

在这里我尝试提示数据集中没有的东西。结果不尽如人意,也许是训练步数或强度的问题。

Shining a flashlight through the fog “手电筒穿透迷雾的光芒”

Giant human silhouette seen in the distance “远处可见的巨大人类剪影”

训练步数,4.0 指导,20 步,1.0 强度(200 步,400 步)

我的主要重点是 400 步版本,但我也想测试一下(稍后更新),看看 400 步是否必要。

200 steps 400 steps

200 步看起来还可以。它与 400 步版本中较低的强度相似(我想这也是预期中的)。

使用的完整配置。这可以在 finetuners-ui 中加载。

accelerate_config: uncompiled_1.yaml allow_tf32: true batch_size: 1 beta1: 0.9 beta2: 0.95 caption_column: prompts.txt caption_dropout_p: 0.05 caption_dropout_technique: empty checkpointing_limit: 3 checkpointing_steps: 200 data_root: '' dataloader_num_workers: 0 dataset_file: '' diffusion_options: '' enable_model_cpu_offload: '' enable_slicing: true enable_tiling: true epsilon: 1e-8 gpu_ids: '0' gradient_accumulation_steps: 8 gradient_checkpointing: true id_token: afkx image_resolution_buckets: 512x512 layerwise_upcasting_modules: transformer layerwise_upcasting_skip_modules_pattern: patch_embed pos_embed x_embedder context_embedder ^proj_in$ ^proj_out$ norm layerwise_upcasting_storage_dtype: float8_e5m2 lora_alpha: 64 lr: 0.0002 lr_num_cycles: 1 lr_scheduler: linear lr_warmup_steps: 100 max_grad_norm: 1 model_name: hunyuan_video nccl_timeout: 1800 num_validation_videos: 0 optimizer: adamw output_dir: '' pin_memory: true precompute_conditions: true pretrained_model_name_or_path: '' rank: 64 report_to: none resume_from_checkpoint: '' seed: 425 target_modules: to_q to_k to_v to_out.0 text_encoder_2_dtype: bf16 text_encoder_3_dtype: bf16 text_encoder_dtype: bf16 tracker_name: finetrainers train_steps: 3000 training_type: lora transformer_dtype: bf16 use_8bit_bnb: '' vae_dtype: bf16 validation_epochs: 0 validation_prompt_separator: ':::' validation_prompts: '' validation_steps: 10000 video_column: videos.txt video_resolution_buckets: 1x512x512 weight_decay: 0.001

社区

注册登录 发表评论