当前位置:网站首页>【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti
【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti
2022-07-23 00:40:00 【华为云】
听了关于GAN的直播课,阅读了一下相关的文章,想利用这个笔记做一个总结。同时这个笔记也是个人对于训练营进阶班第三问的一些思考,问题问如何看待GAN和Diffision的发展潜力,我觉得从现在的SOTA模型出发是最能直观感受他们的能力的,于是便有了这篇文章。除了DALLE2和Parti,我也希望梳理一下他们涉及到的前置工作。由于本人以前没有深入了解过图像生成领域,时间仓促内容可能也有所纰漏。
DALLE2

如上图所示,Dalle2 的训练被分为两个阶段。虚线上半部分使用CLIP进行对比学习,以获得一个text encoder 和一个image encoder, 他们能够分别将文字和图片编码到向量中并使得图片embedding 和文字embedding尽可能相似。而下半部分则用于图像生成,由prior和Decoder组成。Decoder的作用是将由image encoder所产生的编码反向生成原图片,Prior则将标题文本或text embedding映射到image embedding的空间中。Decoder是一个扩散模型, 和GLIDE相似,但同时将clip image embedding映射添加到原来的输入中。文章给出了两种Prior的结构,自回归和扩散模型。人工评判下,文章使用两种prior分别和GLIDE对比发现扩散模型的在真实性,标题符合度和多样性上效果要略微好于自回归模型

量化的FID指标也显示了扩散模型的优势

Parti基于Google新提出的Pathway架构实现高效的网络训练,最大的版本拥有200亿参数

如上图所示,该模型的文本由Transformer Encoder编码,中间的Transformer Decoder将Text-to-Image生成作为一个Seq2Seq任务。而图片由ViT (Vision Transformer)编码(如下图)

GAN和Diffusion比较
GAN由于需要同时训练生成器和判别器,比较难平衡,这使得训练不稳定。相比之下,Diffusion只需要训练一个模型,优化更加容易一些。但是Diffusion的p过程需要分步完成也影响了其推理的效率。在Parti使用了VQGAN并取得了比Diffusion更好的效果,但也要注意Parti拥有比以往模型多得多的参数,预训练的文本识别模型也会对最终结果有显著的影响,难以说明模型整体性能的提升是否来自于GAN,在Parti文章的末尾作者也说可以进一步考虑使用Diffusion和autoregression的结合。在图像生成领域,个人感觉diffusion仍然处于主导地位,但是GAN的应用领域更加灵活广泛,这些是Diffusion无法替代的。
边栏推荐
猜你喜欢

【Try to Hack】AWVS安装和简单使用

DALSA smart camera boa spot communicates with Siemens s7-1200 PROFINET

How many of the 50 classic computer network interview questions can you answer? (III)

Construction of mGRE network

阿里二面:Mysql的索引为什么用B+树而不是跳表?

Swin-Transformer-Object-Detection项目安装教程

Detailed explanation of common ADB operation commands of "suggestions collection"

UGUI源码解析——MaskUtilities

SQL Server database design -- select statement

DOM系列之禁止选中文字和禁止右键菜单
随机推荐
宝塔安装hyperf
Construction of mGRE network
K3s - lightweight kubernetes cluster
How many of the 50 classic computer network interview questions can you answer? (top)
OSPF的路由控制
在线抠图和换背景及擦除工具
Wireshark packet capture tool basic use
UGUI源码解析——MaskUtilities
Day05 MySql的基础使用
PMP一手资料、一手资讯获取
Talk about HART Protocol
UGUI源码解析——IMaterialModifier
BGP实验
XSS labs customs collection
Extend the maximum memory limit of canvas and the principle of browser rendering from a bug
OSI七层模型有哪七层?每一层分别有啥作用,这篇文章讲的明明白白!
全新 IDEA 2022.2 正式发布,新特性很NICE
[openvx] VX for basic use of objects_ node
三个数从大到小输出最详细讲解
[concurrent programming] Chapter 2: go deep into the reentrantlock lock lock from the core source code