正在下个性化扩散技术之雨☔️🎭🖼️
社区文章 发布于 2024 年 4 月 11 日
最近,仅使用一张参考图像且无需任何优化,即可从参考照片生成高质量肖像⚡️
使用这些新的零样本方法,可以轻松生成具有自己选择的风格、构图和背景的自画像👩🏻🎨
以下是 3 个值得了解和尝试的零样本流水线🚀
IP Adapters 包含 2 个核心组件
- 一个
图像编码器
用于提取图像特征(从参考图像中) - 解耦交叉注意力层,用于文本特征和图像特征。为原始 UNet 模型中的每个交叉注意力层添加了一个新的交叉注意力层,以插入图像特征。💡为了提高人脸保真度,在 IP Adapter FaceID 中,引入了人脸嵌入,而不是(或在 IP Adapter FaceID Plus 中是附加的)CLIP 嵌入。
与 IP Adapter 类似,InstantID 也利用了 id 嵌入和解耦交叉注意力,但增加了一个新组件:Identity Net
💡IdentityNet - 一个改进的 ControlNet - 旨在通过额外的空间控制编码参考人脸图像的详细特征,对 ControlNet 进行了 2 项主要修改
❶ 不使用细粒度的 OpenPose 人脸关键点,只使用五个关键点(两只眼睛、一个鼻子、两张嘴)作为条件输入。
❷ 消除文本提示,使用 ID 嵌入作为 ControlNet 中交叉注意力层的条件。
一个受 @fofr Face-to-Many ComfyUI 工作流启发的 diffusers 🧨 工作流🔥
该工作流扩展了原始 InstantID 流水线并将其与任何 SDXL LoRA 结合
- 增加了使用所有风格 SDXL LoRA 进行风格化的选项——这对于基础扩散模型不熟悉的风格特别有用(浏览 LoRA Studio 以获取灵感 ✨)
- 改进结构保留——保持参考图像的构图。