当前位置：网站首页>Learning to Pre-train Graph Neural Networks（图预训练与微调差异）

Learning to Pre-train Graph Neural Networks（图预训练与微调差异）

2022-07-25 11:08:00 【上杉翔二】

博主曾经整理过一篇图预训练的文章，此后有很多在Graph上做Pretraning的文章层出不穷，但基本上万变不离其宗，都是在node-level和graph-level上做自监督学习。

为什么自监督策略有效？

多层结构，下层固定了再去train上层
多任务，可以去bias更泛化
同领域预训练，学到更多相关信息

但是预训练和微调之间总有差距，如何解决这个gap变成为一个棘手的问题，本篇博文博主将整理几种解决方案。

Learning to Pre-train Graph Neural Networks
这篇文章来自AAAI 2021。其核心的思想其实就是：如何缓解GNN预训练和微调之间的优化误差？

首先作者论证了 GNN 预训练是一个两阶段的流程：

Pre-traning。先在大规模图数据集上进行预训练。即对参数theta进行更新使其最小化： $\theta_0=argmin_{\theta} L^{pre}(f_{\theta};D^{pre})$
Fine-tuning。在下游数据上进行微调。用上一步训练好了的 $\theta_0$ 上进行微调，即做梯度下降： $\theta_1=\theta_0-\eta \nabla_{\theta_0} L^{fine}(f_{\theta_0};D^{tr})$

作者认为发现这两个步骤之间是存在一些差异的，即在fine-turning虽然是用到了 $\theta_0$ ，但 $\theta_0$ 是固定的，它的得到是对fine-tuning的数据不可见的，即不会考虑到下游要怎么微调。这样就会造成Pre-traning和Fine-tuning之间的优化偏差，而这一差异在一定程度上影响预训练模型的迁移效果。

因此，作者提出了一种自监督预训练策略L2P-GNN，关键的两点博主认为是：

在pre–traning中做Fine-tuning。即既然有gap，那么在pre–traning的过程中就做类似Fine-tuning的事情就好。有些类似借用元学习的思想，学习如何去learn。
在node-level和graph-level上做自监督学习。

在这里插入图片描述
模型架构如上图，比较重要的是task construction和dual adaptation这两部分。

Task Construction
为了在pre–traning的过程中就做类似Fine-tuning的事情，作者的思路就是提前把数据集也划分成training和testing就好。对于需要Pre-training的多个task，每个task都会这样划分，对应图中的support set和query set。

而为了模拟在下游训练集合上的微调，就直接在支持集上训练损失函数得到可迁移先验知识，然后适配其在查询集上的表现即可。

Dual Adaptation
为了缩小预训练和微调过程之间的差距，在预训练过程中优化模型快速适应新任务的能力是至关重要的。为了将局部信息和全局信息都编码到先验信息中，所以作者提出双重适应在node和graph两个层面进行更新。

节点级适应.。这个与之前文章的方法一致，也是进行采样然后计算： $L^{node}(\psi;S^c_G)=\sum -ln(\sigma(h^T_uh_v))-ln(\sigma(h^T_uh_v'))$ 此时就进行节点级的参数更新： $\psi'=\psi-\alpha \frac{\partial \sum L^{node}(\psi;S^c_G)}{\partial \psi}$
图级适应。同样的，用采用子图的方法计算（图的表示通过pooling得到）： $L^{graph}(\omega;S_G)=\sum -log(\sigma(h^T_{S^c_G}h_G))-ln(\sigma(h^T_{S^c_G}h_G'))$ 然后图级别的参数更新： $\omega'=\omega-\beta \frac{\partial L^{graph}(\omega;S_G)}{\partial \omega}$
先验知识的优化。经过节点级和图级自适应后，已经将全局先验知识适配 $\theta$ 为了任务特定的知识 $\theta'=\{\psi',\omega'\}$ 。然后用它来反向传播得到优化 $\theta$ ：
$\theta \leftarrow \theta-\gamma \frac{\partial \sum L(\theta';Q_G)}{\partial \theta}$ $L(\theta';Q_G)=\frac{1}{k}\sum L^{node}(\psi;S^c_G)+L^{graph}(\omega;S_G)$

paper：https://yuanfulu.github.io/publication/AAAI-L2PGNN.pdf
code：https://github.com/rootlu/L2P-GNN

在这里插入图片描述
Adaptive Transfer Learning on GNN
来自KDD2021。传统的预训练方案并没有设计下游的自适应学习，无法做到上下游一致。因此作者借助元学习设计了一个权重模型adaptive auxilizry loss weighting model来控制上游self-supervised任务和下游target task之间的一致性。

传统方法。在大量无标签数据上进行自监督任务学习+用自监督任务学习到的节点表征来辅助目标任务的学习。
作者的transfer方法。用joint loss来微调在参数，这样便会自适应保留pre-training阶段的有效信息，即通过计算辅助任务与目标任务梯度之间的余弦相似度similarity来学习Adaptive Auxiliary Loss Weighting，以量化辅助任务与目标任务的一致性。

paper：https://arxiv.org/abs/2107.08765

原网站

版权声明
本文为[上杉翔二]所创，转载请带上原文链接，感谢
https://nakaizura.blog.csdn.net/article/details/114002593

当前位置：网站首页>Learning to Pre-train Graph Neural Networks（图预训练与微调差异）

Learning to Pre-train Graph Neural Networks（图预训练与微调差异）

边栏推荐

猜你喜欢

随机推荐