LTX-视频 LoRA 训练研究（单图像/风格训练）

社区文章发布于 2025年1月14日

这是一项关于 LTX-视频 LoRA 训练的研究，旨在更好地了解训练和推理设置如何影响结果。我希望它也能对其他人有所帮助。

这是一个只在单图像上训练的 rank 128 LoRA，使用了一个旧的（实际上是我的第一个）SD 1.5 创建的数据集。我选择它是因为我手头有它，它风格独特，而且体积小。我使用 Gemini 重新标注了其中一张图像，然后修改了其他图像的提示。所有示例都应使用相同的种子。遗憾的是，我选择了一个倾向于向后移动的种子。

训练是使用 diffusers 和 finetrainers 作为后端完成的

在我的 3090 上使用 finetrainers-ui 作为 GUI（我自己的项目）。总而言之，大约花了 3 小时。

推理是使用 ComfyUI 核心节点完成的，并通过此 PR 加载 LoRA。

我在下面添加了一些评论，如果您想了解更多信息，请告诉我。

数据集中的示例

"一个夜晚的墓地。场景被浓雾笼罩，营造出一种黑暗诡异的氛围。无数墓碑清晰可见，碑文在昏暗的光线下几乎无法辨认。两棵大树高耸在前景，它们的树枝像骨骼般伸展。天空阴沉，一轮满月洒下苍白的光芒。整体印象是神秘而忧郁。"

视频提示的灵感（与上述不同）来自这里

1400 训练步

LoRA 强度变化，50 推理步，(0.55, 0.75, 0.9)

0.55 0.75 0.9

帧数变化，50 推理步，(73, 97, 153)

153

较低的帧数会降低相似度。这有些出人意料，不幸的是，这意味着你不能只用几帧快速查看 LoRA。

帧率变化，40 推理步，(25, 45, 65)

153

我曾看到，如果在低于 24 帧/秒的帧率下进行训练，更高的推理帧率可能会产生更多运动。对于单图像训练，它似乎只会减少运动。

2400 训练步

LoRA 强度变化，50 推理步，(0.55, 0.75, 0.9)

0.55 0.75 0.9

LoRA 强度变化，60 推理步，(0.55, 0.75, 0.9)

0.55 0.75 0.9

CFG 变化，50 推理步，0.55 LoRA 强度 (CFG 2, CFG 3, CFG 4)

Cfg 2 Cfg 3 Cfg 4

高 CFG 增加了创造性，但降低了相似度（不足为奇）

97 帧在不同训练步数下的比较 (700, 1400, 2400)

700 1400 2400

对于图像到视频，LoRA 的作用不大。对于相同的提示和输入图像，有无 LoRA 的结果都差不多。

finetrainers config.yaml

accelerate_config: uncompiled_1.yaml allow_tf32: true batch_size: 28 beta1: 0.9 beta2: 0.95 caption_column: prompts.txt caption_dropout_p: 0.05 caption_dropout_technique: empty checkpointing_limit: 10 checkpointing_steps: 100 data_root: dataloader_num_workers: 0 dataset_file: '' diffusion_options: '' enable_model_cpu_offload: '' enable_slicing: true enable_tiling: true epsilon: 1e-8 gpu_ids: '0' gradient_accumulation_steps: 1 gradient_checkpointing: true id_token: afkx image_resolution_buckets: 512x512 lora_alpha: 128 lr: 0.0002 lr_num_cycles: 1 lr_scheduler: linear lr_warmup_steps: 100 max_grad_norm: 1 mixed_precision: bf16 model_name: ltx_video nccl_timeout: 1800 num_validation_videos: 0 optimizer: adamw output_dir: '' pin_memory: true precompute_conditions: '' pretrained_model_name_or_path: '' rank: 128 report_to: none resume_from_checkpoint: '' seed: 42 target_modules: to_q to_k to_v to_out.0 text_encoder_2_dtype: bf16 text_encoder_3_dtype: bf16 text_encoder_dtype: bf16 tracker_name: finetrainers train_steps: 3000 training_type: lora use_8bit_bnb: '' vae_dtype: bf16 validation_epochs: 0 validation_prompt_separator: ':::' validation_prompts: '' validation_steps: 100 video_column: videos.txt video_resolution_buckets: 1x512x512 weight_decay: 0.001

社区

kanghua151

1月31日

Image2Video 的运动 LTX Lora 可以训练吗？我想为一个时尚模特的时装表演训练一个运动 LTX Lora，这可以吗？

neph1

文章作者 1月31日

请注意，我不是 finetrainers 团队的成员，但这里有一个相关的 PR：https://github.com/a-r-r-o-w/finetrainers/pull/150
不过，它有点停滞不前。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论