LTX-视频 LoRA 训练研究(单图像/风格训练)
这是一项关于 LTX-视频 LoRA 训练的研究,旨在更好地了解训练和推理设置如何影响结果。我希望它也能对其他人有所帮助。
这是一个只在单图像上训练的 rank 128 LoRA,使用了一个旧的(实际上是我的第一个)SD 1.5 创建的数据集。我选择它是因为我手头有它,它风格独特,而且体积小。我使用 Gemini 重新标注了其中一张图像,然后修改了其他图像的提示。所有示例都应使用相同的种子。遗憾的是,我选择了一个倾向于向后移动的种子。
训练是使用 diffusers 和 finetrainers 作为后端完成的
在我的 3090 上使用 finetrainers-ui 作为 GUI(我自己的项目)。总而言之,大约花了 3 小时。
推理是使用 ComfyUI 核心节点完成的,并通过 此 PR 加载 LoRA。
我在下面添加了一些评论,如果您想了解更多信息,请告诉我。
数据集中的示例

视频提示的灵感(与上述不同)来自 这里
1400 训练步
LoRA 强度变化,50 推理步,(0.55, 0.75, 0.9)
帧数变化,50 推理步,(73, 97, 153)
较低的帧数会降低相似度。这有些出人意料,不幸的是,这意味着你不能只用几帧快速查看 LoRA。
帧率变化,40 推理步,(25, 45, 65)
我曾看到,如果在低于 24 帧/秒的帧率下进行训练,更高的推理帧率可能会产生更多运动。对于单图像训练,它似乎只会减少运动。
2400 训练步
LoRA 强度变化,50 推理步,(0.55, 0.75, 0.9)
LoRA 强度变化,60 推理步,(0.55, 0.75, 0.9)
CFG 变化,50 推理步,0.55 LoRA 强度 (CFG 2, CFG 3, CFG 4)
高 CFG 增加了创造性,但降低了相似度(不足为奇)
97 帧在不同训练步数下的比较 (700, 1400, 2400)
对于图像到视频,LoRA 的作用不大。对于相同的提示和输入图像,有无 LoRA 的结果都差不多。
finetrainers config.yaml
accelerate_config: uncompiled_1.yaml allow_tf32: true batch_size: 28 beta1: 0.9 beta2: 0.95 caption_column: prompts.txt caption_dropout_p: 0.05 caption_dropout_technique: empty checkpointing_limit: 10 checkpointing_steps: 100 data_root: dataloader_num_workers: 0 dataset_file: '' diffusion_options: '' enable_model_cpu_offload: '' enable_slicing: true enable_tiling: true epsilon: 1e-8 gpu_ids: '0' gradient_accumulation_steps: 1 gradient_checkpointing: true id_token: afkx image_resolution_buckets: 512x512 lora_alpha: 128 lr: 0.0002 lr_num_cycles: 1 lr_scheduler: linear lr_warmup_steps: 100 max_grad_norm: 1 mixed_precision: bf16 model_name: ltx_video nccl_timeout: 1800 num_validation_videos: 0 optimizer: adamw output_dir: '' pin_memory: true precompute_conditions: '' pretrained_model_name_or_path: '' rank: 128 report_to: none resume_from_checkpoint: '' seed: 42 target_modules: to_q to_k to_v to_out.0 text_encoder_2_dtype: bf16 text_encoder_3_dtype: bf16 text_encoder_dtype: bf16 tracker_name: finetrainers train_steps: 3000 training_type: lora use_8bit_bnb: '' vae_dtype: bf16 validation_epochs: 0 validation_prompt_separator: ':::' validation_prompts: '' validation_steps: 100 video_column: videos.txt video_resolution_buckets: 1x512x512 weight_decay: 0.001