0% found this document useful (0 votes)

2 views

custom_diffusion

The document discusses advancements in customizing text-to-image diffusion models, focusing on efficient training and low storage requirements. It highlights methods for merging weights of individual concepts and generating images with multiple concepts, achieving significant improvements in speed and efficiency compared to traditional models. The proposed approach allows for personalized and compositional image generation while maintaining a manageable storage footprint.

Uploaded by

Dinesh Ch

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

custom_diffusion

Uploaded by

Dinesh Ch

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 74

Multi-Concept Customization of Text-to-

Image Diffusion

Nupur Kumari Bingliang Richard Eli Jun-Yan Zhu

Zhang Zhang Shechtman

CVPR, 2023.
Large-scale text-to-image models
“teddy bears mixing
sparkling chemicals as
mad scientists in a
steampunk style”

A photograph of the inside of a subway train.

There are raccoons sitting on the seats. One of
them is reading a newspaper. The window shows
“A teddy bear on a
the city in the background. skateboard in Times
Square.”
Diffusion models Autoregressive models GANs
(DALL-E 2, Stable (Image GPT, Parti) (GigaGAN)
Diffusion)
Stable
Text-to-image isn’t perfect…
Diffusion

Photo of a moongate
Stable
Text-to-image isn’t perfect…
Diffusion

Actual moongate
images
Photo of a moongate
Stable
Text-to-image isn’t perfect…
Diffusion

Actual moongate
images
Photo of a moongate
Stable
Customization Diffusion

Actual moongate
images
Photo of a moongate
Custom
Customization Diffusion

Actual moongate
images
Photo of a moongate
Custom
Unseen contexts Diffusion

Actual moongate
images
Moongate in the middle of highway
Custom
Unseen contexts Diffusion

Actual moongate
images
Moongate in snowy ice
Custom
Unseen contexts Diffusion

Actual moongate
images
A puppy in front of Moongate
No knowledge of personal Stable
concepts Diffusion

Jun-Yan’s dog, Stark

A dark grey color weimaraner dog

No knowledge of personal Stable
concepts Diffusion

Jun-Yan’s dog, Stark

A dark grey color weimaraner dog

Custom
Customization Diffusion

Jun-Yan’s dog, Stark

V* dog wearing sunglasses

Custom
Multiple concepts Diffusion

Jun-Yan’s dog, Stark

Actual moongate
images V* dog wearing sunglasses in front of moongate
The Bottleneck
The space of training images we can describe

is smaller than

the space of images we can imagine.

How to efficiently customize
text-to-image diffusion models?
Diffusion models

Forward diffusion process (fixed)

Reverse diffusion process (learned generative model)

*slides motivated from https://cvpr2022-tutorial-diffusion-models.github.io

Diffusion model training
Photo of a Moongate

Diffusion
+ =
Model (U-Net)

L2 loss
Fine-tuning all model weights

Photo of a moongate Moongate in snowy ice

Storage requirement. 4GB storage for each fine-tuned model.

Compute requirement. It requires more VRAM/training time.
Compositionality. Hard to combine multiple models.
Analyze change in weights

: updated weights
where
: pretrained weights
Analyze change in weights

: updated weights
where
: pretrained weights
Text-image Cross-Attention

=
*
= *
photo

moon
gate
of

i.e.
a

Output =
Text-image Cross-Attention

Text features only

photo

moon
gate

input to and
of
a

Trainable Frozen
Only fine-tune cross-attention
layers

photo

moon
gate
of
a
Text
transformer

Attention

Attention
ResNet

ResNet
KV ... KV
Q Q

Diffusion Model U-Net

Trainable Frozen
Generated samples for target concept
Photo of a moongate

Pretrained Model Fine-tuned Model

Generated samples for similar concepts
Photo of a moon

Pretrained Model Fine-tuned Model

How to prevent overfitting?

+
Photo of a Photo of a sky full of stars
Blood moon
{moongate} {moongate} and the moon
... ...
Target images Add regularization images
Generated samples for target concept
Photo of a moongate

Pretrained Model Fine-tuned Model

Generated samples for similar concepts
Photo of a moon

Pretrained Model Fine-tuned Model

Personalized concepts

How to describe personalized

concepts?

V* dog

Where V* is a modifier token

in the text embedding space

Jun-Yan’s dog, Stark

Personalized concepts
Also fine-tune the modifier token V* that describes the
personalized concept

photo

dog
of

V*
a
Text
transformer

Attention

Attention
ResNet

ResNet
KV ... KV
Q Q

Diffusion Model U-Net

Trainable Frozen
Single concept results

V* dog wearing headphones

Single concept results

A watercolor painting of V*
tortoise plushy on a mountain
Single concept results

V* table and an orange sofa

Single concept results

Drawings from Aaron

Hertzmann
Painting of dog in the style
of V* art
Multiple new concepts?

+ ?
Joint training
1. Combine the training dataset of multiple concepts
image
Target

V* dog Moongate
Regularization
images

Dog Cute dog Wisdom moon Gated entry

Joint training

Requires re-training for each choice of composition

100 concepts -> 4950 combinations of two concepts.

100 concepts -> 161, 700 combinations of three

concepts.
an we merge weights of individual concepts

+
V* dog wearing
sunglasses
in front of a
moongate
Objective function for merging weights

photo

photo
dog

dog
of

of
V*

V*
a

a
Text transformer Text transformer

* = *
Fine-tuned
Merge
weights for
d
V* dog
weight
Objective function for merging weights

moongate

moongate
photo

photo
of

of
a

a
Text transformer Text transformer

* = *
Fine-tuned
Merge
weights for
d
moongate
weight
Objective function for merging weights

i.e.

: target prompts, e.g., {photo of a V* dog, photo of moongate}

But still being similar to pretrained weights on a

collection of random text prompts .

i.e.
Constrained least square problem

Constraints:
Merging weights of individual concepts

Closed form solution using lagrange multiplier

Differentiating the above and solving for and ,

Two concept results

V1* dog in front of

moongate
Two concept results

V1* dog in front of

moongate
Two concept results

V1* flower in the V2*

wooden pot on a table
Two concept results

V1* flower in the V2*

wooden pot on a table
Two concept results

V1* chair with the V2* cat

sitting on it near a beach
Two concept results

V1* chair with the V2* cat

sitting on it near a beach
Two concept results

The V1* cat is sitting

inside a V2* wooden pot
and looking up
Two concept results

The V1* cat is sitting

inside a V2* wooden pot
and looking up
Two concept results

Drawings from Aaron

Hertzmann V1* art style painting
of V2* wooden pot
Two concept results

Drawings from Aaron

Hertzmann V1* art style painting
of V2* wooden pot
Concurrent works
• DreamBooth: https://dreambooth.github.io/
• Fine-tuning all the weights

• Textual Inversion: https://textual-inversion.github.io/

• Optimizing text embedding with frozen weights
Qualitative comparison (single-
concept)
Target Images

V* teddybear in
Times Square??
Qualitative comparison (single-
concept)
Target Images Custom Diffusion (Ours) DreamBooth Textual Inversion

V* teddybear in Times Square

Qualitative comparison (multi-
concept)
Target Images Custom Diffusion (Ours) DreamBooth Textual Inversion

V1* flower in the V2* wooden pot on a table

Quantitative metrics
Target Image

CLIP Image alignment:

Image
Encoder Sim( , )

Generated
Image

dog
playing CLIP
Text
Text alignment:
with a
ball Encoder Sim( , )
Quantitative comparison (single-concept)
Quantitative comparison (single-concept)
Quantitative comparison (single-concept)
Quantitative comparison (single-concept)
Quantitative comparison (multi-concept)
Quantitative comparison (multi-concept)
Quantitative comparison (multi-concept)
Quantitative comparison (multi-concept)
Memory requirement
Each custom diffusion model: 75MB storage

Analyze the difference in pretrained and fine-tuned

weights
Compressing fine-tuned weights
75MB 15MB 0.1MB 0.08MB

Target Custom Top 20% 1 Rank 0 Rank

image Diffusion rank
Limitations

Ours Pretrained model

V1* dog and a V2* cat dog and a cat

playing together playing together

The two concepts

are entangled
Summary
• Efficient training (~6 minutes on 2 A100s)

• Low storage: 15~75 MB/concept (vs 4GB for complete

model)

• On-the-fly weight merge for 2-3 concepts within 1

second

Cat and Dog Classification Using CNN: Project Objective
No ratings yet
Cat and Dog Classification Using CNN: Project Objective
7 pages
Philips 715g4802-P1a Psu
No ratings yet
Philips 715g4802-P1a Psu
4 pages
For Data Sharing in Cloud Computing Using Revocable Encryption
0% (1)
For Data Sharing in Cloud Computing Using Revocable Encryption
23 pages
MSC Nastran 2021.4 Superelements and Modules User Guide
No ratings yet
MSC Nastran 2021.4 Superelements and Modules User Guide
1,014 pages
Nataniel Ruiz Dreambooth Fine Tuning Text To Image
No ratings yet
Nataniel Ruiz Dreambooth Fine Tuning Text To Image
11 pages
Cui_IDAdapter_Learning_Mixed_Features_for_Tuning-Free_Personalization_of_Text-to-Image_Models_CVPRW_2024_paper
No ratings yet
Cui_IDAdapter_Learning_Mixed_Features_for_Tuning-Free_Personalization_of_Text-to-Image_Models_CVPRW_2024_paper
10 pages
Ai Image Captioning
No ratings yet
Ai Image Captioning
10 pages
Zero Shot Text To Image Generation (DALL E)
No ratings yet
Zero Shot Text To Image Generation (DALL E)
20 pages
Stanford Dog Classification Using Convolutional Neural Network (CNN)
No ratings yet
Stanford Dog Classification Using Convolutional Neural Network (CNN)
8 pages
Dream Booth
No ratings yet
Dream Booth
25 pages
New Microsoft Word Document (2)
No ratings yet
New Microsoft Word Document (2)
8 pages
Ruiz DreamBooth Fine Tuning Text-to-Image Diffusion Models For Subject-Driven Generation CVPR 2023 Paper
No ratings yet
Ruiz DreamBooth Fine Tuning Text-to-Image Diffusion Models For Subject-Driven Generation CVPR 2023 Paper
11 pages
DL Copy5
No ratings yet
DL Copy5
10 pages
Cats and Dogs Classification
No ratings yet
Cats and Dogs Classification
12 pages
Dreambooth: Fine Tuning Text-To-Image Diffusion Models For Subject-Driven Generation
No ratings yet
Dreambooth: Fine Tuning Text-To-Image Diffusion Models For Subject-Driven Generation
21 pages
Cad and Dog 2
No ratings yet
Cad and Dog 2
5 pages
CSY3025 Artificial Intelligence Techniques: Deep Learning
No ratings yet
CSY3025 Artificial Intelligence Techniques: Deep Learning
42 pages
DL7 1
No ratings yet
DL7 1
19 pages
Transfer Learning: Objectives
No ratings yet
Transfer Learning: Objectives
16 pages
Automatic Image Captioning Bot With CNN and RNN: - Submitted By-Harkirat Singh CSE-3 01976802717
No ratings yet
Automatic Image Captioning Bot With CNN and RNN: - Submitted By-Harkirat Singh CSE-3 01976802717
10 pages
cat-dog-classification-report
No ratings yet
cat-dog-classification-report
11 pages
BTP_6 sem_part1
No ratings yet
BTP_6 sem_part1
40 pages
CS236 Default Project
No ratings yet
CS236 Default Project
3 pages
Slides - ChatGPT - Jousef Murad
No ratings yet
Slides - ChatGPT - Jousef Murad
33 pages
Exercise 2 Building Convolution Neural Network
No ratings yet
Exercise 2 Building Convolution Neural Network
15 pages
14
No ratings yet
14
8 pages
(Arisandy Yudha Putra - 23150137) Research Interest
No ratings yet
(Arisandy Yudha Putra - 23150137) Research Interest
13 pages
Personalized Text 2 Image by Rl
No ratings yet
Personalized Text 2 Image by Rl
17 pages
Presentation Manu Niha (1)
No ratings yet
Presentation Manu Niha (1)
11 pages
Deeplearning Rostami Part 2
No ratings yet
Deeplearning Rostami Part 2
114 pages
Learning Transferable Visual Models From Natural Language Supervision
No ratings yet
Learning Transferable Visual Models From Natural Language Supervision
48 pages
2302.05543
No ratings yet
2302.05543
8 pages
Adding Conditional Control To Text-to-Image Diffusion Models
No ratings yet
Adding Conditional Control To Text-to-Image Diffusion Models
12 pages
Learning Transferable Visual Models From Natural Language Supervision
No ratings yet
Learning Transferable Visual Models From Natural Language Supervision
47 pages
Control Net
No ratings yet
Control Net
12 pages
Text-image embeddings with OpenAIs CLIP
No ratings yet
Text-image embeddings with OpenAIs CLIP
5 pages
Gen AI Notes Paer 2
No ratings yet
Gen AI Notes Paer 2
14 pages
Multiple Transformer Mining For Vizwiz Image Caption
No ratings yet
Multiple Transformer Mining For Vizwiz Image Caption
2 pages
Implementation_of_Simple_and_Efficient_P
No ratings yet
Implementation_of_Simple_and_Efficient_P
8 pages
Zhang Adding Conditional Control To Text-to-Image Diffusion Models ICCV 2023 Paper
No ratings yet
Zhang Adding Conditional Control To Text-to-Image Diffusion Models ICCV 2023 Paper
12 pages
Adding Conditional Control To Text-to-Image Diffusion Models
No ratings yet
Adding Conditional Control To Text-to-Image Diffusion Models
33 pages
Building A System That Can Generate High
No ratings yet
Building A System That Can Generate High
2 pages
Cad and Dog
No ratings yet
Cad and Dog
5 pages
Natural Language Processing
No ratings yet
Natural Language Processing
4 pages
Unpaired Image To Image Translation CycleGAn
No ratings yet
Unpaired Image To Image Translation CycleGAn
18 pages
Journey DB
No ratings yet
Journey DB
20 pages
Meta
No ratings yet
Meta
17 pages
S51486 - How To Use Generative AI To Build Content For Real-World Applications
100% (1)
S51486 - How To Use Generative AI To Build Content For Real-World Applications
38 pages
CogView2 - May 2022
No ratings yet
CogView2 - May 2022
15 pages
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks
No ratings yet
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks
18 pages
CycleGAN_CVPR2017
No ratings yet
CycleGAN_CVPR2017
18 pages
Automated Image Captioning With Convnets and Recurrent Nets: Andrej Karpathy, Fei-Fei Li
No ratings yet
Automated Image Captioning With Convnets and Recurrent Nets: Andrej Karpathy, Fei-Fei Li
105 pages
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks
No ratings yet
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks
20 pages
Vector Quantized Diffusion Model For Text-to-Image Synthesis
No ratings yet
Vector Quantized Diffusion Model For Text-to-Image Synthesis
14 pages
Zhou Shifted Diffusion For Text-to-Image Generation CVPR 2023 Paper
No ratings yet
Zhou Shifted Diffusion For Text-to-Image Generation CVPR 2023 Paper
10 pages
Stable Diffusion
No ratings yet
Stable Diffusion
58 pages
Practical 3
No ratings yet
Practical 3
4 pages
Cross-Caption Cycle-Consistent Text-to-Image Synthesis
No ratings yet
Cross-Caption Cycle-Consistent Text-to-Image Synthesis
9 pages
Transfer Learning and Fine-Tuning
No ratings yet
Transfer Learning and Fine-Tuning
32 pages
Day 8
No ratings yet
Day 8
20 pages
Indian Institute OF Information Technology Allahabad: Text To Image Synthesis
No ratings yet
Indian Institute OF Information Technology Allahabad: Text To Image Synthesis
8 pages
1. Introduction
No ratings yet
1. Introduction
56 pages
CSE_R20_Curriculum
No ratings yet
CSE_R20_Curriculum
197 pages
ml
No ratings yet
ml
1,404 pages
Sales Dashboard · Dashboard · Metabase
No ratings yet
Sales Dashboard · Dashboard · Metabase
7 pages
React
No ratings yet
React
89 pages
Amazon OA _ CTC 50L _ SDE-1
No ratings yet
Amazon OA _ CTC 50L _ SDE-1
7 pages
C++ Handwritten Notes
No ratings yet
C++ Handwritten Notes
88 pages
Most Asked Front-End Interview Questions
No ratings yet
Most Asked Front-End Interview Questions
5 pages
mmongodbvsql
No ratings yet
mmongodbvsql
9 pages
Aug 16 on-campus codings
No ratings yet
Aug 16 on-campus codings
34 pages
Cyber Physical Systems
No ratings yet
Cyber Physical Systems
11 pages
CSS Handwritten Notes
No ratings yet
CSS Handwritten Notes
45 pages
C++ Handwritten Notes
No ratings yet
C++ Handwritten Notes
88 pages
Top 10 Most Common Interview Quections & Answers
No ratings yet
Top 10 Most Common Interview Quections & Answers
37 pages
BFX Series
No ratings yet
BFX Series
10 pages
What Is A Codebook
No ratings yet
What Is A Codebook
5 pages
Resume format
No ratings yet
Resume format
1 page
Gender Differences in Online Gaming: A Literature Review: August 2014
No ratings yet
Gender Differences in Online Gaming: A Literature Review: August 2014
12 pages
Holaaaa
No ratings yet
Holaaaa
4 pages
Web Technologies
No ratings yet
Web Technologies
14 pages
B E Computer Science & Engineering
No ratings yet
B E Computer Science & Engineering
39 pages
New Fmt for Grant
No ratings yet
New Fmt for Grant
13 pages
Chapter 1 PDF
No ratings yet
Chapter 1 PDF
14 pages
Master Thesis Topics in Human Resource Management
100% (3)
Master Thesis Topics in Human Resource Management
6 pages
Tle Major Test Set 015 1
No ratings yet
Tle Major Test Set 015 1
12 pages
Mca 1 Sem Discrete Mathematics mcc103 2018
No ratings yet
Mca 1 Sem Discrete Mathematics mcc103 2018
1 page
Depth - Limited - Iterative Deeping - Search
No ratings yet
Depth - Limited - Iterative Deeping - Search
9 pages
63003en-1 01
No ratings yet
63003en-1 01
1,417 pages
EOS ESD Dif Renessas
No ratings yet
EOS ESD Dif Renessas
23 pages
CAD CAM Report
No ratings yet
CAD CAM Report
3 pages
Manual de Uso USRP 2900
No ratings yet
Manual de Uso USRP 2900
17 pages
Docx
No ratings yet
Docx
14 pages
Neural Networks and Fuzzy Logic Question Paper
100% (1)
Neural Networks and Fuzzy Logic Question Paper
1 page
BM Equipos Revision
No ratings yet
BM Equipos Revision
21 pages
Final 3 0-1
No ratings yet
Final 3 0-1
6 pages
Differential Calculus
No ratings yet
Differential Calculus
245 pages
Baud-Bovy Psychophysics Intro
No ratings yet
Baud-Bovy Psychophysics Intro
20 pages
System Analysis & Design
No ratings yet
System Analysis & Design
50 pages
Stylus Pro 4880
No ratings yet
Stylus Pro 4880
2 pages
RSRAN067 - Cell Capacity-RSRAN-WCEL-day-rsran WCDMA16 Reports RSRAN067 xml-2019 02 07-16 49 02 58
No ratings yet
RSRAN067 - Cell Capacity-RSRAN-WCEL-day-rsran WCDMA16 Reports RSRAN067 xml-2019 02 07-16 49 02 58
125 pages
Aroma NB119C Carter - 36 Hours Playtime Bluetooth Neckband Bluetooth Headset
No ratings yet
Aroma NB119C Carter - 36 Hours Playtime Bluetooth Neckband Bluetooth Headset
1 page