Processing math: 92%

StarGAN v2 を読む

StarGAN v2: Diverse Image Synthesis for Multiple Domains
[Choi et al. CVPR 2020] という論文を読んでいきます. (本文中の図は論文より引用).

Synthesis Result
Figure . Synthesis Result

image-to-image translationのタスクにおいて, 異なるドメイン間のマッピングを学習しなければならない. そして, それらは次の要素を満たす必要がある.

  1. 生成した画像のdiversityが広い
  2. 様々にドメインに対応できる (scalability)

introduction#

既存手法では, マッピングが2つのドメイン間に限定される (scalabilityがない) という問題点があったが, StarGAN は1つのgeneratorで複数のドメインに対応するモデルを提案した. この手法では, generatorは追加のinputとしてドメインのラベルを持ち, 画像を目的のドメインに変換させる. しかし, StarGANはそれぞれのドメイン間のマッピングを学習しているだけで, データ分布のマルチモーダルな特徴を捉えているわけではない.

Method#

Framework#

Overview
Figure 1. Overview
ゴールは 様々な画像を生成できる1つのgenerator G を訓練すること.

Generator (Figure 1a)

xX を画像, yY をドメインとする. G は 画像とstyle code s を引数にとり, 新たな画像を生成する (AdaINを用いて sG に与える). yG に与えないことで, すべてのドメインに対応する画像が生成できる.

Mapping network (Figure 1b)

latent code z とドメイン yが与えられたとき, mapping network F は style code s を生成する s=Fy(z)

Style encoder (Figure 1c)

画像 x と対応するドメイン y が与えられたとき, encoder Ex に対応するstyle code s を生成する s=Ey(x)

Discriminator (Figure 1d)

discriminator D は複数のoutput branchを持つmulti-task discriminatorである. それぞれのbranch Dyxy に属する本当の画像か, それとも偽物の画像か判定する.

Training Objectives#

4つのロスを組み合わせたロスを用いる

1. Adversarial objective

訓練するとき, latent code z とターゲットドメイン ˜yY をランダムにとってくる. そして, ターゲットstyle code ˜s=F˜y(z) を求めたあと, x˜s を入力として G を学習させる. このとき, adversarial lossを用いる. Ladv=Ex,y[logDy(x)]+Ex,˜y,z[log(1D˜y(G(x,˜s)))]

2. Style reconstruction

生成画像からstyle codeをマッピングし, それとstyle codeの間のロスを計算する

Lsty=Ex,˜y,z[||˜sE˜y(G(x,˜s))||1] 

3. Style diversification

G が多様な画像を生成するためのロス Lds=Ex,y,z1,z2[||G(x,˜s1)G(x,˜s2)||1]  where ˜si=F˜y(zi)for  i1,2 

4. Preserving source characteristics

G(x,˜s)x におけるドメインによらない特徴 (ポーズなど) をとらえるためのロス Lcyc=Ex,y,˜yz[||xG(G(x,˜s),ˆs)||1] where ˆs=Ey(x)(入力画像 x に対するstyle codeの予測値)

Full objective

4つのロスを組み合わせる min

\lambda_\cdot: hyper-parameter

Experiments#

Baselines#

Datasets#

画像は 256 \times 256 にリサイズされる

Evaluation metrics#

qualityとdiversityを評価するために, FIDとLPIPSを用いる

Results#

Reference-guided image synthesis results on CelebA-HQ
Figure 2. Reference-guided image synthesis results on CelebA-HQ

StarGAN v2ではdiverseな画像を生成することがわかる (reference画像の髪型やメイク, 髭などの特徴をsource画像の特徴を崩すことなく生成している).

その他結果は論文で…

References#

© 2024