当前位置:网站首页>cyclegan:unpaired image-to-image translation using cycle-consistent adversarial network
cyclegan:unpaired image-to-image translation using cycle-consistent adversarial network
2022-06-26 00:04:00 【Kun Li】
CycleGAN论文的阅读与翻译,无监督风格迁移 - 知乎2018-10-10 初版,论文不短,请自行选择重要的部分阅读 2018-11-02 与评论区的讨论 2018-11-25 语法错误小修改 2019-08-14 评论区回复,无监督风格迁移的其他进展 2019-08-26 按评论区的建议对论文的翻译进行修改 …https://zhuanlan.zhihu.com/p/45394148cyclegan的核心在unpaired image,如果是pair数据的话,直接用pix2pix即可,但是非成对数据用cyclegan,cyclegan和biggan一样,文章比较好懂。cyclegan的核心在从X到Y,两个域之间的迁移的映射空间是很大的,作者对映射空间用cycle consistent loss做了约束,直观就是对X通过G生成的Y的分布再通过F转回来,用l1 loss进行监督,Y侧的损失也一样,通常cyclegan有四个损失,两个gan的,两个cycle loss。
1.abstract:
提出了一种在没有配对示例的情况下学习将图像从源域X到目标域Y的方法,学习一种映射G:X->Y,来自G(x)的图像分布与分布Y没有区别,因为映射是highly under-constrained,用一个拟映射F:Y->X,并且引入了cycle consistency loss强制F(G(X))==Y。
2.Introduction
我们寻求一种无需配对输入输出示例即可学习域之间进行转换的算法,我们假设域之间存在一些潜在的关系,例如它们是在同一场景下两种不同的渲染,我们试图学习这种关系。理论上,G(x)学到的y的分布是要匹配先验分布Y的,通常这要求G是随机的,然而,这样的转换并不能保证单个输入x和输出以有意义的方式配对,有无限多的映射G将在y上产生相同的分布,因此会产生模式崩溃。这里x从传统Gan的角度出发是相同的分布,从pix2pix的角度出发是成对数据的不同分布。
我们提出了cycle consistent,如果将一个句子从英语翻译成法语,应该也可以从法语返回英语,从数学上,G和F应该互逆,并且两个映射都应该是双射。同时训练G和F,并添加cycle consistency loss确保F(G(x))=x和G(F(y))=y。将这种损失和对框损失相结合,就可以实现未配对图像到图像转换的目标。
2.related work
Gans、image-to-image translation、unpaired image-to-image translation、cycle consistency、neural style transfer
3.formulation
上面这张图是文本的核心,图a是架构,G和F是双射,除了正常的GAN的生成器和判别器之外,此处X同城生成器变成Y的分布,再通过生成器F将Y映射回X,映射回X的分布和原始的输入x通过cycle consistency loss来保持一致,y域的图也是如此,这里注意输入是不成对的两个域的图,cycle consistency loss也是在原有基础上添加的两个损失,应该理论上讲gan有四个损失函数,判别器和生成器各一个,两个域的cycle loss,有些场景还会多两个id loss。这块还是比较精妙的,按照Gan的思路,从X到Y的迁移,X大多是高斯分布或者均匀分布,生成一个Y的分布,但是cyclegan中是一个潜在关系的学习,因此光从X到Y的学习会促使X直接转成Y而不保留X的性质,因此保留了cycle loss这种学习双射的能力。
3.1 Adversarial loss
3.2 cycle consistence loss
从X到Y的的映射空间要进行约束,通过前后向循环一致性来控制映射空间。
3.3 full objective
这块作者还做了个实验,理论上将其实有个前向循环损失应该就够了,但是仅在一个方向进行循环损失,不足以约束这个空间。
其中在application中还提及的idt loss,我看mm官方中把有id loss和不加id loss都计算上了,id loss,防止input和output之间的color composition过多,避免过多迁移。
4.Implementation
后面是作者的实现细节和实验部分,就不再赘述,主要还是要理解Gan的核心思想。
边栏推荐
- Complete review (including syntax) -- MySQL regular expressions
- MySQL图书借阅系统项目数据库建库表语句(组合主键、外键设置)
- Loss function of depth model
- STM32 key development foundation
- 通过电脑获取WIFI密码(只能连接过的WiFi)
- 15 `bs object Node name Node name String` get nested node content
- [visual studio code] vscode shortcut keys
- 2022 documenter general basic (documenter) exam simulation 100 questions and online simulation exam
- Several methods of JQ obtaining objects
- leetcode 300. Longest Increasing Subsequence 最长递增子序列 (中等)
猜你喜欢
Abnova丨抗GBA单克隆抗体解决方案
Oracle database startup backup preparation
20. Hough line transformation
RT thread project engineering construction and configuration - (Env kconfig)
STM32 key development foundation
Abnova丨CSV 单克隆抗体解决方案
Technical foreword - metauniverse
21. Hoff circle transformation
GNN (graph neural network) introduction vernacular
shell正则表达式
随机推荐
Embedded C first learning notes
从在浏览器的输入框输入一个网址,到看到网页的内容,这个过程中发生了什么?
经纬度 多点 获取中心点 已解决
2022 documenter general basic (documenter) exam simulation 100 questions and online simulation exam
木瓜蛋白酶的特点及相关特异性介绍
Common deep learning optimizers
Reading notes on how to connect the network - hubs, routers and routers (III)
Abnova丨CMV CISH 探头解决方案
Tools - API document generation tool
Camera - 02 image sensor
APP测试与WEB测试的区别
大周建议自媒体博主前期做这4件事
--都市修炼手册之SQL-- 第一章 基础复习
Forgotten Jieba participle
Summary of in-depth learning optimization techniques
Technical foreword - metauniverse
25. histogram comparison
缓冲
2021 - 1 - 15 notes de pêche Ctrl + C / V
Installing MySQL databases in FreeBSD