LTX-视频 LoRA 训练研究(单图像/风格训练)

社区文章 发布于 2025年1月14日

这是一项关于 LTX-视频 LoRA 训练的研究,旨在更好地了解训练和推理设置如何影响结果。我希望它也能对其他人有所帮助。

这是一个只在单图像上训练的 rank 128 LoRA,使用了一个旧的(实际上是我的第一个)SD 1.5 创建的数据集。我选择它是因为我手头有它,它风格独特,而且体积小。我使用 Gemini 重新标注了其中一张图像,然后修改了其他图像的提示。所有示例都应使用相同的种子。遗憾的是,我选择了一个倾向于向后移动的种子。

训练是使用 diffusers 和 finetrainers 作为后端完成的

在我的 3090 上使用 finetrainers-ui 作为 GUI(我自己的项目)。总而言之,大约花了 3 小时。

推理是使用 ComfyUI 核心节点完成的,并通过 此 PR 加载 LoRA。

我在下面添加了一些评论,如果您想了解更多信息,请告诉我。

数据集中的示例

一个夜晚的墓地。场景被浓雾笼罩,营造出一种黑暗诡异的氛围。无数墓碑清晰可见,碑文在昏暗的光线下几乎无法辨认。两棵大树高耸在前景,它们的树枝像骨骼般伸展。天空阴沉,一轮满月洒下苍白的光芒。整体印象是神秘而忧郁。 "一个夜晚的墓地。场景被浓雾笼罩,营造出一种黑暗诡异的氛围。无数墓碑清晰可见,碑文在昏暗的光线下几乎无法辨认。两棵大树高耸在前景,它们的树枝像骨骼般伸展。天空阴沉,一轮满月洒下苍白的光芒。整体印象是神秘而忧郁。"

视频提示的灵感(与上述不同)来自 这里

1400 训练步

LoRA 强度变化,50 推理步,(0.55, 0.75, 0.9)

0.55 0.75 0.9

帧数变化,50 推理步,(73, 97, 153)

73 97 153

较低的帧数会降低相似度。这有些出人意料,不幸的是,这意味着你不能只用几帧快速查看 LoRA。

帧率变化,40 推理步,(25, 45, 65)

73 97 153

我曾看到,如果在低于 24 帧/秒的帧率下进行训练,更高的推理帧率可能会产生更多运动。对于单图像训练,它似乎只会减少运动。

2400 训练步

LoRA 强度变化,50 推理步,(0.55, 0.75, 0.9)

0.55 0.75 0.9

LoRA 强度变化,60 推理步,(0.55, 0.75, 0.9)

0.55 0.75 0.9

CFG 变化,50 推理步,0.55 LoRA 强度 (CFG 2, CFG 3, CFG 4)

Cfg 2 Cfg 3 Cfg 4

高 CFG 增加了创造性,但降低了相似度(不足为奇)

97 帧在不同训练步数下的比较 (700, 1400, 2400)

700 1400 2400

对于图像到视频,LoRA 的作用不大。对于相同的提示和输入图像,有无 LoRA 的结果都差不多。

finetrainers config.yaml

accelerate_config: uncompiled_1.yaml allow_tf32: true batch_size: 28 beta1: 0.9 beta2: 0.95 caption_column: prompts.txt caption_dropout_p: 0.05 caption_dropout_technique: empty checkpointing_limit: 10 checkpointing_steps: 100 data_root: dataloader_num_workers: 0 dataset_file: '' diffusion_options: '' enable_model_cpu_offload: '' enable_slicing: true enable_tiling: true epsilon: 1e-8 gpu_ids: '0' gradient_accumulation_steps: 1 gradient_checkpointing: true id_token: afkx image_resolution_buckets: 512x512 lora_alpha: 128 lr: 0.0002 lr_num_cycles: 1 lr_scheduler: linear lr_warmup_steps: 100 max_grad_norm: 1 mixed_precision: bf16 model_name: ltx_video nccl_timeout: 1800 num_validation_videos: 0 optimizer: adamw output_dir: '' pin_memory: true precompute_conditions: '' pretrained_model_name_or_path: '' rank: 128 report_to: none resume_from_checkpoint: '' seed: 42 target_modules: to_q to_k to_v to_out.0 text_encoder_2_dtype: bf16 text_encoder_3_dtype: bf16 text_encoder_dtype: bf16 tracker_name: finetrainers train_steps: 3000 training_type: lora use_8bit_bnb: '' vae_dtype: bf16 validation_epochs: 0 validation_prompt_separator: ':::' validation_prompts: '' validation_steps: 100 video_column: videos.txt video_resolution_buckets: 1x512x512 weight_decay: 0.001

社区

Image2Video 的运动 LTX Lora 可以训练吗?我想为一个时尚模特的时装表演训练一个运动 LTX Lora,这可以吗?

·
文章作者

请注意,我不是 finetrainers 团队的成员,但这里有一个相关的 PR:https://github.com/a-r-r-o-w/finetrainers/pull/150
不过,它有点停滞不前。

注册登录 发表评论