Diffusers 文档
ConsisID
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
ConsisID
ConsisID 是一个身份保持文本到视频生成模型,通过频率分解在生成的视频中保持人脸一致性。ConsisID 的主要特点是:
- 频率分解:从频域角度分析 DiT 架构的特征,并基于这些特征设计合理的控制信息注入方法。
- 一致性训练策略:粗到细的训练策略、动态掩码损失和动态交叉人脸损失进一步增强了模型的泛化能力和身份保持性能。
- 无需微调的推理:以前的方法在推理前需要对输入 ID 进行逐例微调,导致显著的时间和计算成本。相比之下,ConsisID 是免调优的。
本指南将引导您了解 ConsisID 的使用案例。
加载模型检查点
模型权重可以存储在 Hub 或本地的单独子文件夹中,在这种情况下,您应该使用 from_pretrained() 方法。
# !pip install consisid_eva_clip insightface facexlib
import torch
from diffusers import ConsisIDPipeline
from diffusers.pipelines.consisid.consisid_utils import prepare_face_models, process_face_embeddings_infer
from huggingface_hub import snapshot_download
# Download ckpts
snapshot_download(repo_id="BestWishYsh/ConsisID-preview", local_dir="BestWishYsh/ConsisID-preview")
# Load face helper model to preprocess input face image
face_helper_1, face_helper_2, face_clip_model, face_main_model, eva_transform_mean, eva_transform_std = prepare_face_models("BestWishYsh/ConsisID-preview", device="cuda", dtype=torch.bfloat16)
# Load consisid base model
pipe = ConsisIDPipeline.from_pretrained("BestWishYsh/ConsisID-preview", torch_dtype=torch.bfloat16)
pipe.to("cuda")
身份保持文本到视频生成
对于身份保持文本到视频生成,请传入文本提示和一张包含清晰人脸的图像(例如,最好是半身或全身照)。默认情况下,ConsisID 生成 720x480 的视频以获得最佳效果。
from diffusers.utils import export_to_video
prompt = "The video captures a boy walking along a city street, filmed in black and white on a classic 35mm camera. His expression is thoughtful, his brow slightly furrowed as if he's lost in contemplation. The film grain adds a textured, timeless quality to the image, evoking a sense of nostalgia. Around him, the cityscape is filled with vintage buildings, cobblestone sidewalks, and softly blurred figures passing by, their outlines faint and indistinct. Streetlights cast a gentle glow, while shadows play across the boy's path, adding depth to the scene. The lighting highlights the boy's subtle smile, hinting at a fleeting moment of curiosity. The overall cinematic atmosphere, complete with classic film still aesthetics and dramatic contrasts, gives the scene an evocative and introspective feel."
image = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/consisid/consisid_input.png?download=true"
id_cond, id_vit_hidden, image, face_kps = process_face_embeddings_infer(face_helper_1, face_clip_model, face_helper_2, eva_transform_mean, eva_transform_std, face_main_model, "cuda", torch.bfloat16, image, is_align_face=True)
video = pipe(image=image, prompt=prompt, num_inference_steps=50, guidance_scale=6.0, use_dynamic_cfg=False, id_vit_hidden=id_vit_hidden, id_cond=id_cond, kps_cond=face_kps, generator=torch.Generator("cuda").manual_seed(42))
export_to_video(video.frames[0], "output.mp4", fps=8)
人脸图像 | 视频 | 描述 |
---|---|---|
![]() | ![]() | 这段视频以精美的手绘动画风格呈现,一位自信的女性骑着马穿梭在郁郁葱葱的森林空地上。她神情专注而又平静,熟练地调整着宽边帽。她身着一件飘逸的波西米亚风格连衣裙,随着马的节奏优雅摆动,布料在动画中流畅地飘逸。斑驳的阳光透过树林,在森林地面投下柔和、如画般的光影。她的姿态从容,展现出对马匹的掌控和优雅。动画柔和流畅的风格为场景增添了一丝梦幻般的质感,女性的平静神态和宁静的环境唤起了一种自由和谐的感觉。 |
![]() | ![]() | 这段视频以引人入胜的动画风格呈现,一位女性站在白雪皑皑的森林中央,眼神专注地向前伸出手。她身着一件深蓝色斗篷,呼吸在寒冷的空气中清晰可见,周围被柔和、空灵的笔触描绘。她嘴角挂着淡淡的微笑,召唤出一缕冰魔法,专注地看着周围的树木和地面开始闪烁并冻结,覆盖着精致的冰晶。动画流畅的动作将魔法栩栩如生地展现出来,霜冻以复杂、闪烁的图案向外蔓延。环境以柔和、水彩般的色调描绘,增强了魔法般的梦幻氛围。整体气氛宁静而强大,寂静的冬日空气放大了冰冻场景的精致之美。 |
![]() | ![]() | 动画以异想天开的方式描绘了一位气球销售员在微风中伫立的形象,以柔和、朦胧的笔触捕捉,唤起一种宁静的春日感觉。他的脸庞被温柔的微笑衬托,眼睛因阳光而略微眯起,几缕发丝在风中飘动。他身着一件浅色、柔和色调的衬衫,周围的气球随风摇曳,为场景增添了一丝俏皮感。背景柔和地模糊,隐约可见繁华的市场或公园,增强了此刻轻松而又温柔的心情。 |
![]() | ![]() | 这段视频捕捉了一个男孩在城市街道上行走的画面,以经典的35毫米相机黑白拍摄。他的表情若有所思,眉毛微蹙,仿佛陷入沉思。胶片颗粒为画面增添了纹理和永恒的质感,唤起一种怀旧之情。在他周围,城市景观充满了老式建筑、鹅卵石人行道,以及模糊的路人,他们的轮廓模糊不清。路灯投下柔和的光芒,影子在男孩的路径上舞动,为场景增添了深度。灯光突出了男孩微妙的微笑,暗示着一瞬间的好奇。整体的电影氛围,辅以经典的电影静帧美学和戏剧性的对比,赋予场景一种富有感染力和内省的感受。 |
![]() | ![]() | 视频中,一个婴儿穿着一件鲜艳的超级英雄斗篷,自信地站立着,双臂举起,摆出强有力的姿势。婴儿脸上带着坚定的神情,眼睛睁大,嘴唇紧抿,仿佛已准备好迎接挑战。场景显得俏皮可爱,周围散落着五颜六色的玩具,脚下铺着柔软的地毯,阳光透过附近的窗户洒落进来,照亮了飘扬的斗篷,更增添了英雄气概。整体氛围轻松愉快,婴儿的表情捕捉了天真与可爱的勇敢尝试,仿佛真的准备好拯救世界。 |
资源
通过以下资源了解更多关于 ConsisID 的信息。
- 一段视频演示了 ConsisID 的主要功能。
- 研究论文《通过频率分解实现身份保持文本到视频生成》提供了更多细节。