StarGAN v2 を読む
StarGAN v2: Diverse Image Synthesis for Multiple Domains
[Choi et al. CVPR 2020] という論文を読んでいきます. (本文中の図は論文より引用).

image-to-image translationのタスクにおいて, 異なるドメイン間のマッピングを学習しなければならない. そして, それらは次の要素を満たす必要がある.
- 生成した画像のdiversityが広い
- 様々にドメインに対応できる (scalability)
introduction#
既存手法では, マッピングが2つのドメイン間に限定される (scalabilityがない) という問題点があったが, StarGAN は1つのgeneratorで複数のドメインに対応するモデルを提案した. この手法では, generatorは追加のinputとしてドメインのラベルを持ち, 画像を目的のドメインに変換させる. しかし, StarGANはそれぞれのドメイン間のマッピングを学習しているだけで, データ分布のマルチモーダルな特徴を捉えているわけではない.
Method#
Framework#

Generator (Figure 1a)
x∈X を画像, y∈Y をドメインとする. G は 画像とstyle code s を引数にとり, 新たな画像を生成する (AdaINを用いて s を G に与える). y を G に与えないことで, すべてのドメインに対応する画像が生成できる.
Mapping network (Figure 1b)
latent code z とドメイン yが与えられたとき, mapping network F は style code s を生成する s=Fy(z)
Style encoder (Figure 1c)
画像 x と対応するドメイン y が与えられたとき, encoder E は x に対応するstyle code s を生成する s=Ey(x)
Discriminator (Figure 1d)
discriminator D は複数のoutput branchを持つmulti-task discriminatorである. それぞれのbranch Dy はx が y に属する本当の画像か, それとも偽物の画像か判定する.
Training Objectives#
4つのロスを組み合わせたロスを用いる
1. Adversarial objective
訓練するとき, latent code z とターゲットドメイン ˜y∈Y をランダムにとってくる. そして, ターゲットstyle code ˜s=F˜y(z) を求めたあと, x と ˜s を入力として G を学習させる. このとき, adversarial lossを用いる. Ladv=Ex,y[logDy(x)]+Ex,˜y,z[log(1−D˜y(G(x,˜s)))]
2. Style reconstruction
生成画像からstyle codeをマッピングし, それとstyle codeの間のロスを計算する
Lsty=Ex,˜y,z[||˜s−E˜y(G(x,˜s))||1]
3. Style diversification
G が多様な画像を生成するためのロス Lds=Ex,y,z1,z2[||G(x,˜s1)−G(x,˜s2)||1] where ˜si=F˜y(zi)for i∈1,2
4. Preserving source characteristics
G(x,˜s) が x におけるドメインによらない特徴 (ポーズなど) をとらえるためのロス Lcyc=Ex,y,˜yz[||x−G(G(x,˜s),ˆs)||1] where ˆs=Ey(x)(入力画像 x に対するstyle codeの予測値)
Full objective
4つのロスを組み合わせる min
\lambda_\cdot: hyper-parameter
Experiments#
Baselines#
Datasets#
- CelebA-HQ
- AFHQ
画像は 256 \times 256 にリサイズされる
Evaluation metrics#
qualityとdiversityを評価するために, FIDとLPIPSを用いる
Results#

StarGAN v2ではdiverseな画像を生成することがわかる (reference画像の髪型やメイク, 髭などの特徴をsource画像の特徴を崩すことなく生成している).
その他結果は論文で…
References#
StarGAN v2
https://arxiv.org/abs/1912.01865StarGAN
同じfist authorの論文で, StarGAN v2の前モデル. https://arxiv.org/abs/1711.09020