当前位置:网站首页>stylegan1: a style-based henerator architecture for gemerative adversarial networks
stylegan1: a style-based henerator architecture for gemerative adversarial networks
2022-06-23 15:08:00 【Kun Li】
stylegan这篇文章本身还是很有意义的,它进行了很多的探索和思考。但是从落地来看,它有两个最主要的贡献,第一是产生了latent space w,第二是将w放到了生成器的每层结构中。真实数据不是高斯,输入是高斯,很难匹配起来,w是隐变量的空间,可以是任意的空间,更好的匹配真实数据;w送入到各个Adain中,进行生成器的控制。
1.introduction
对latent space的属性缺乏理解,对latent space interpolations并没有提供定量的方法来比较不同的生成器。本文重新设计了生成器架构,提出了控制图像生成的新方法。生成器开始于一个输入常量,根据latent code在每个卷积层调整图像的样式,从而在不同尺度直接控制图像特征的强度,没有对判别器和损失函数进行修改,可以很好的嵌入到现行的gan框架中。
我们的生成器将输入的latent code嵌入到一个中间潜在空间(intermediate latent space)中,input latent space必须服从数据的概率密度,这会导致一定程度上不可避免的entanglement(纠缠),但是中间潜在空间不受这个限制,可以解纠缠,提了两个新的度量标准,感知路径长度perceptual path length和线性可分离性 linear separability.这块是stylegan的一个核心的贡献,引入了latent space,一般对噪声的采样几乎都是高斯或者均匀分布,但真实数据的采样大多不是标准的高斯分布,如果噪声采样是高斯,但数据采样不是高斯,则两者很难匹配,w是隐变量的空间,可以是任意的空间,更好的匹配真实数据。关于latent code的 简单理解就是,为了更好的对数据进行分类或生成,需要对数据的特征进行表示,但是数据有很多特征,这些特征之间相互关联,耦合性较高,导致模型很难弄清楚它们之间的关联,使得学习效率低下,因此需要寻找到这些表面特征之下隐藏的深层次的关系,将这些关系进行解耦,得到的隐藏特征,即latent code。由 latent code组成的空间就是 latent space。隐变量z的样本空间。
2.style-based generator

结合上面这张图,可以说stylegan的两个最核心的点,第一左边传统的gan的生成器,从z开始采样,但是右边的style-based的生成器通过一个mapping network,给定一个输入潜在空间z中的latent code z,由一个非线性网络映射由z映射到w,w是中间潜在空间,这一步是第一个点,即将输入映射到中间潜在空间,映射网络由8个fc层组成,第二个点,以往的gan是串联结构,生成器只在一开始时接收到了z,而style-based在生成器的每一个卷积层都接受到了w,A代表学习的仿射变换,A将w转成y形式,这些样式随后输入到生成器中,生成器每个卷积层之后控制自适应实例规范化(AdaIN),中间潜在空间w通过每个卷积层自适应实例规范化控制生成器。
其中每个特征图分别进行归一化,然后使用样式y中对应的标量分量进行缩放和偏移,因此,y的维度是该图像上特征图数量的两倍,B操作将学习的单通道缩放因子应用于噪声输入,将噪声图像广播到所有特征图,然后将高斯噪声添加到相应的卷积输出中。合成网络由18层,最后单独使用1x1卷积将最后一层转成RGB。
2.1 Quality of generated images

上表说明,在CelebA-HQ和FFHQ数据集中不同生成器架构的FDI值,FDI值越小越好。基础模型是(A)Progressive GAN这一生成器架构。除非另有说明,否则将从其中继承网络和所有超参数。
1.首先通过使用双线性上/下采样操作、更长的训练和已调整的超参数将基础模型改进到(B)。
2.然后通过添加映射网络和AdaIN操作改进到(C),并观察到网络不再受益于将latent code馈入到第一个卷积层。
3.然后通过删除传统的输入层并从学习到的4×4×512恒定张量(D)开始图像合成来简化体系结构。
4.接下来发现添加噪声也能够改善结果(E)。
5.最后对相邻样式进行去相关并实现对生成图像的更细粒度控制的混合正则化。

上图显示了本文的生成器从FFHQ数据集生成的一组未整理的新颖图像。正如FID所证实的那样,平均质量很高,甚至眼镜和帽子之类的配件也能成功合成。对于此图避免使用所谓的截断技巧(truncation trick)来从W的极端区域进行采样。本文的生成器允许只在低分辨率中选择性地应用截断,因此高分辨率细节不会受到影响。
2.2 prior art
有关gan的改进工作。
3.properties of the style-based generator
这里对本文的第二个点进行了解释。生成器结构可以通过对样式进行特定比例的修改来控制图像生成。映射函数和仿射变换可以看成从学习到的分布中为每种style绘制样本,合成网络可以看成是基于style的集合生成样本,这就是本文为什么叫style的原因,这里的style是可以控制合成的属性。每种样式的效果在网络中都是已经被定位(localize)的,即修改样式的特定子集只能影响图像的某些方面。为什么会产生这种效果呢?AdaIN操作先将每个通道归一化为zero mean和unit variance,然后才根据样式应用比例和偏差;接下来,基于样式的新的每通道统计信息会对features在后续卷积操作中的相对重要性进行修改,但是因为已经进行了归一化操作,新的每通道统计信息并不会依赖原始统计信息。因此每个样式仅控制一个卷积层,然后被下一个AdaIN操作覆盖。
后面的内容可以看我放在一开始的csdn里面的,讲的很细,stylegan的核心就两点,后面基本就是解释和度量的一些东西。
边栏推荐
- 5 minutes to quickly launch web applications and APIs (vercel)
- 直播间源码在开发前期必须做的工作及开发步骤
- Important knowledge of golang: detailed explanation of context
- Solution to the problem that MySQL cannot be started in xampp
- C. Set or Decrease-Educational Codeforces Round 120 (Rated for Div. 2)
- xcbdfbs xcvb
- ABP框架之——数据访问基础架构(下)
- Stone from another mountain - Intelligent Question and answer technology in wechat search
- Important knowledge of golang: mutex
- The meaning of FPGA abbreviations and words in engineering field
猜你喜欢

Embedded software architecture design - program layering

JS traversal array (using the foreach () method)

Usestate vs useref and usereducer: similarities, differences and use cases

SFOD:无源域适配升级优化,让检测模型更容易适应新数据(附论文下载)

Important knowledge of golang: detailed explanation of context

Matlab| sparse auxiliary signal denoising and pattern recognition in time series data
Explain in detail the principle and implementation of redis distributed lock

基因检测,如何帮助患者对抗疾病?

Diffraction of light

mysql事务与锁
随机推荐
Explore the "store" on the cloud. The cloud store is newly upgraded!
js遍历数组(用forEach()方法)
Converging ecology, enabling safe operation, Huawei cloud security, cloud brain intelligent service security
Three simple tips for accelerating yarn install
Origin of sectigo (Comodo) Certificate
积分商城要如何做才能获取到利润
Horizon development board commissioning
Important knowledge of golang: atomic atomic operation
Simple understanding of quick sort
Embedded software architecture design - program layering
变压器只能转换交流电,那直流电怎么转换呢?
他山之石 | 微信搜一搜中的智能问答技术
列表查询排序参数处理
golang 重要知识:RWMutex 读写锁分析
Important knowledge of golang: sync Cond mechanism
MQ消息中间件理论详解
MySQL series: storage engine
Large area and availability area
力扣每日一题-第25天-495.提莫攻击
TCP协议笔记
https://zhuanlan.zhihu.com/p/263554045