Informations sur le document

Titre de l'article:Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data
Auteur de la thèse:Qi Zhu, Natalia Ponomareva, Jiawei Han, Bryan Perozzi
Source du document:2021, NeurIPS
Adresse de la thèse:download 
Code du document:download

1 Introduction

  Apprentissage semi - supervisé par l'utilisation des relations entre les données(Connexion de bord,Il y aura des biais inductifs),Et un ensemble d'échantillons étiquetés,Pour prédire le reste de l'étiquette.

  Problèmes d'apprentissage semi - supervisé:La répartition des données entre les ensembles de données de formation et les ensembles de données d'essai n'est pas uniforme,Facile à produire Ajustement excessif、Problème de mauvaise généralisation.Lorsque l'ensemble de données est trop petit ou trop grand,Sélectionnez un sous - ensemble marqué pour l'entraînement,Ce genre de problème est évident.

  Plus précisément,,Notre contribution est la suivante:

  1. We provide the first focused discussion on the distributional shift problem in GNNs.
  2. We propose generalized framework, Shift-Robust GNN (SR-GNN), which can address shift in both shallow and deep GNNs.
  3. We create an experimental framework which allows for creating biased train/test sets for graph learning datasets.
  4. We run extensive experiments and analyze the results, proving that our methods can mitigate distributional shift.

2 Related Work

   La théorie de l'apprentissage standard suppose que les données de formation et de raisonnement proviennent de la même distribution , Mais dans de nombreux cas, , Ce n'est pas vrai. .Dans l'apprentissage de la migration,Adaptation du domaine(Domain adaptation) Le problème consiste à retirer les connaissances du domaine source. (Pour apprendre) Passer au domaine cible ( Distribution finale du raisonnement ).

  [3]  En tant que travail pionnier dans ce domaine, il définit un modèle basé sur  Domaine source Et Domaine cible  Une fonction de mesure de distance est présentée pour quantifier la similitude entre les deux domaines . Pour obtenir le modèle final , Une idée intuitive est de former un modèle basé sur une combinaison pondérée de données de source et de données de cible , Où le poids est une fonction de quantification de la distance du champ .

3 Distributional shift in GNNs

  SSL Classificateur, La fonction de perte d'entropie croisée est généralement utilisée $l$:

    $\mathcal{L}=\frac{1}{M} \sum\limits_{i=1}^{M} l\left(y_{i}, z_{i}\right)$

   Lorsque les données de formation et d'essai proviennent du même domaine   $\operatorname{Pr}_{\text {train }}(X, Y)=\operatorname{Pr}_{\text {test }}(X, Y)$  Heure, Les classificateurs formés fonctionnent bien .

3.1 Data shift as representation shift

   Hypothèses de base fondées sur la théorie de l'apprentissage standard $\operatorname{Pr}_{\text {train }}(Y \mid Z)=\operatorname{Pr}_{\text {test }}(Y \mid Z)$, La principale raison du déplacement de distribution est la représentation du déplacement ,C'est - à - dire:    

    $\operatorname{Pr}_{\text {train }}(Z, Y) \neq \operatorname{Pr}_{\text {test }}(Z, Y) \rightarrow \operatorname{Pr}_{\text {train }}(Z) \neq \operatorname{Pr}_{\text {test }}(Z)$

   Cet article se concentre sur les ensembles de données de formation et la représentation des ensembles de données d'essai $Z$ Transfert de distribution entre .

   Pour mesurer ce changement ,Disponible en MMD[8] Ou CMD[37] Indice d'écart égal .CMD Répartition des mesures $\mathrm{p}$ Et $\mathrm{q}$ Distance directe entre ,Comme suit:

    $\mathrm{CMD}=\frac{1}{|b-a|}\|\mathrm{E}(p)-\mathrm{E}(q)\|_{2}+\sum\limits _{k=2}^{\infty} \frac{1}{|b-a|^{k}}\left\|c_{k}(p)-c_{k}(q)\right\|_{2}$

  Parmi eux

    • $c_{k}$ Pour et au nom de $k$ Moment central de l'ordre,En général $k=5$ ;
    • $a$、$b$ Indique le soutien de la distribution conjointe pour ces distributions ;

   Plus la valeur de la formule ci - dessus est grande, plus la distance entre les deux champs est grande. .

   Défini dans le présent document GNNs Pour  $H^{k}=\sigma\left(H^{k-1} \theta^{k}\right)$,Traditionnel GNNs Pour $H^{k}=\sigma\left(\tilde{A} H^{k-1} \theta^{k}\right)$.

  Traditionnel GNNs Parce que la matrice de contiguïté normalisée est utilisée , Provoque un biais inductif ,Et cela a changé Répartition des représentations . Donc, dans l'apprentissage semi - supervisé, ,Parce que Induction graphique et décalage des vecteurs caractéristiques échantillonnés , Il est difficile d'avoir un échantillon d'entraînement bon marché pour produire une plus grande perturbation du rendement .

  Officiellement, L'analyse des déplacements distribués est la suivante: :

  Definition  3.1  (Distribution shift in GNNs). Assume node representations  $Z=\left\{z_{1}, z_{2}, \ldots, z_{n}\right\}$  are given as an output of the last hidden layer of a graph neural network on graph  $G$  with n nodes. Given labeled data  $\left\{\left(x_{i}, y_{i}\right)\right\}$  of size  $M$ , the labeled node representation  $Z_{l}=\left(z_{1}, \ldots, z_{m}\right)$  is a subset of the nodes that are labeled,  $Z_{l} \subset Z$ . Assume  $Z$  and  $Z_{l}$  are drawn from two probability distributions  $p$  and $q$. The distribution shift in GNNs is then measured via a distance metric  $d\left(Z, Z_{l}\right)$

  Figure 1 Il a été démontré que l'effet du biais de distribution causé par la déviation de l'échantillon réduit directement le rendement du modèle . En utilisant des noeuds GCN Le modèle dessine les valeurs de distance de déplacement de trois ensembles de données distribués ( $x$ Axe) Et la précision correspondante du modèle ( $y$ Axe)La relation entre.

  

  Les résultats montrent que,GNN La performance de la classification des noeuds sur ces ensembles de données est inversement proportionnelle à l'ampleur du déplacement de distribution , Et a inspiré notre étude des déplacements distribués .

4 Shift-Robust Graph Neural Networks

   Cette section commence par deux types GNN Modèle pour résoudre le problème du déplacement distribué ($\operatorname{Pr}_{\text {train }}(Z) \neq \operatorname{Pr}_{\text {test }}(Z)$, Un cadre général est ensuite proposé pour réduire les déplacements de distribution 2Questions.

  ben

  ji

4.1 Scenario 1: Traditional GNN models

  La tradition GNN Modèle (GCN) $\Phi$ Contient Fonctions d'apprentissage $\mathbf{F}$ ,Paramètres $\Theta$ ,Matrice de contiguïté $A$ :

    $\Phi=\mathbf{F}(\Theta, A)$

  In GCN Moyenne, Les écarts inductifs des graphiques sont multipliés à chaque niveau , Et le gradient se propage dans toutes les couches . Les noeuds générés par la dernière couche sont représentés comme suit: :

    $Z \equiv Z_{k}=\Phi\left(\Theta, Z_{k-1}, A\right)$, $Z_{k} \in[a, b]^{n}$, $Z_{0}=X$

  Échantillons de formation $\left\{x_{i}\right\}_{i=1}^{M}$ Les noeuds de $Z_{\text {train }}=\left\{z_{i}\right\}_{i=1}^{M}$.Pour les échantillons d'essai, Extraire un non biaisé des données non marquées IID Échantillons $X_{\text {IID }}=\left\{x_{i}^{\prime}\right\}_{i=1}^{M}$, Et exprimer la sortie comme suit: $Z_{\text {IID }}=\left\{z_{i}^{\prime}\right\}_{i=1}^{M}$.

   Pour réduire l'entraînement Et Problème de déplacement de la distribution entre les échantillons d'essai , Cet article présente un régularisation $d:[a, b]^{n} \times[a, b]^{n} \rightarrow \mathbb{R}^{+}$ Utilisé pour ajouter à la perte d'entropie croisée .Parce que $\Phi$ C'est complètement différenciable, La mesure du déplacement distribué peut être utilisée comme régularisation , Pour minimiser directement les biais et les non - biais IID Différences entre les échantillons :

    $\mathcal{L}=\frac{1}{M} \sum_{i} l\left(y_{i}, z_{i}\right)+\lambda \cdot d\left(Z_{\text {train }}, Z_{\text {IID }}\right)$

   Ici, le déplacement de la distribution est mesuré en utilisant Régularisation de la différence de moment Central (central moment discrepancy regularizer)$d_{\mathrm{CMD}}$:

    $d_{\mathrm{CMD}}\left(Z_{\text {train }}, Z_{\mathrm{IID}}\right)=\frac{1}{b-a}\left\|\mathbf{E}\left(Z_{\text {train }}\right)-\mathbf{E}\left(Z_{\mathrm{IID}}\right)\right\|+\sum\limits_{k=2}^{\infty} \frac{1}{|b-a|^{k}}\left\|c_{k}\left(Z_{\text {train }}\right)-c_{k}\left(Z_{\mathrm{IID}}\right)\right\|$

  Parmi eux,

    • $\mathbf{E}(Z)=\frac{1}{M} \sum_{i} z_{i}$;
    • $c_{k}(Z)=\mathbf{E}(Z-\mathbf{E}(Z))^{k}$ - Oui. $k$ Moment central de l'ordre;

4.2 Scenario 2: Linearized GNN Models

  LinéarisationGNN Le modèle utilise deux fonctions différentes : Un pour la transformation non linéaire des caractéristiques , Un autre pour la phase d'extension du graphique linéaire :

    $\Phi=\mathbf{F}_{\mathbf{2}}(\underbrace{\mathbf{F}_{\mathbf{1}}(\mathbf{A})}_{\text {linear function }}, \Theta, X)$

  Parmi eux,Fonction linéaire $\mathbf{F}_{\mathbf{1}}$ Combiner la déviation inductive du graphique avec les caractéristiques du noeud , Il est ensuite livré à un encodeur de fonctions réseau neuronal multicouche $\mathbf{F}_{\mathbf{2}}$ Découplage.SimpleGCN[34] Moyenne $\mathbf{F}_{\mathbf{1}}(A)=A^{k} X$ . Une autre branche du modèle linéaire [16,4,36] Adoption personalized pagerank Pour calculer à l'avance la diffusion de l'information dans le graphique ( $\mathbf{F}_{\mathbf{1}}(A)=\alpha(I-(1-\alpha) \tilde{A})^{-1}$ ), Et l'appliquer aux propriétés des noeuds encodés $F(\Theta, X)$.

   Les deux modèles ci - dessus , Déviation inductive de la figure en fonction linéaire $\mathbf{F}_{\mathbf{1}}$  Entrée des caractéristiques pour. Mais il n'y a pas assez d'étapes pour apprendre , Il n'est donc pas possible d'utiliser simplement le régularisateur de distribution proposé ci - dessus .

  Dans les deux modèles,, Figure Écart inductif comme linéarité $\mathbf{F}_{\mathbf{1}}$ Caractéristiques d'entrée pour .Malheureusement,, Comme il n'y a pas de couches à apprendre à ce stade de ces modèles , Nous ne pouvons donc pas simplement appliquer les régularisateurs de distribution proposés dans la section précédente .

  Dans ce cas,, Les échantillons d'entraînement et d'essai peuvent être considérés comme provenant de $\mathbf{F}_{\mathbf{1}}$ Échantillons au niveau des rangées pour , Puis le déplacement de la distribution $\operatorname{Pr}_{\text {train }}(Z) \neq \operatorname{Pr}_{\text {test }}(Z)$ Le problème se traduit par l'appariement de l'espace caractéristique de biais inductif des cartes d'entraînement et d'essai $h_{i} \in \mathbb{R}^{n}$. Pour passer des données de formation aux données d'essai , Un système de pondération des échantillons peut être utilisé pour corriger les écarts , C'est un échantillon biaisé. $\left\{h_{i}\right\}_{i=1}^{M}$ Sera similaire àIIDÉchantillons $ \left\{h_{i}^{\prime}\right\}_{i=1}^{M}$. La perte d'entropie croisée qui en résulte est

    $\mathcal{L}=\frac{1}{M} \beta_{i} l\left(y_{i}, \Phi\left(h_{i}\right)\right)$

  Parmi eux,

    • $\beta_{i}$ Est le poids de chaque instance de formation ;
    • $l$ C'est la perte d'entropie croisée;

  Et puis, En résolvant un Correspondance moyenne du noyau (KMM)[9] Pour calculer le meilleur $\beta$:

    $\min _{\beta_{i}}\left\|\frac{1}{M} \sum\limits_{i=1}^{M} \beta_{i} \psi\left(h_{i}\right)-\frac{1}{M^{\prime}} \sum\limits_{i=1}^{M^{\prime}} \psi\left(h_{i}^{\prime}\right)\right\|^{2} \text {, s.t. } B_{l} \leq \beta<B_{u}$

  $\psi: \mathbb{R}^{n} \rightarrow \mathcal{H}$ Représente le noyau $k$ Introduction reproducing kernel Hilbert space(RKHS) Cartographie des caractéristiques pour.Dans l'expérience, L'auteur utilise une fonction de noyau gaussien mixte $k(x, y)=\sum_{\alpha_{i}} \exp \left(\alpha_{i}\|x-y\|_{2}\right)$, $\alpha_{i}=1,0.1,0.01 $.Limite inférieure $B_{l}$ Et plafonds $B_{u}$ Les contraintes existent pour s'assurer que la majorité des échantillons reçoivent un poids raisonnable , Au lieu de quelques échantillons Obtenir un poids non nul .

   Il y a plusieurs classes dans l'espace d'étiquette réel .Pour prévenir $\beta$ Déséquilibre de l'étiquette causé , Exigences supplémentaires spécifiques $c$ Classe $\beta$ La somme de Maintenir le même avant et après correction $\sum_{i}^{M} \beta_{i} \cdot \mathbb{I}\left(l_{i}=c\right)=\sum_{i}^{M} \mathbb{I}\left(l_{i}=c\right), \forall c$ .

4.3 Shift-Robust GNN Framework

   Maintenant nous avons proposé Shift-Robust GNN(SR-GNN)-On s'en occupe.GNN Objectifs généraux de formation pour les transferts de distribution moyenne :

    $\mathcal{L}_{\text {SR-GNN }}=\frac{1}{M} \beta_{i} l\left(y_{i}, \Phi\left(x_{i}, A\right)\right)+\lambda \cdot d\left(Z_{\text {train }}, Z_{\text {IID }}\right)$

   Le cadre se compose d'une composante de régularisation pour gérer le transfert de distribution dans la couche d'apprentissage (No4.1Section) Et un exemple de composant pondéré , Le composant est capable de traiter les cas où des écarts inductifs graphiques sont ajoutés après le codage des caractéristiques (No4.2Section).

  Maintenant, Nous discuterons d'un exemple concret de notre cadre , Et appliquer l'Instance à APPNP[16]Modèle.APPNP Le modèle est défini comme suit: :

    $\Phi_{\text {APPNP }}=\underbrace{\left((1-\alpha)^{k} \tilde{A}^{k}+\alpha \sum\limits_{i=0}^{k-1}(1-\alpha)^{i} \tilde{A}^{i}\right)}_{\text {approximated personalized page rank }} \underbrace{\mathbf{F}(\Theta, X)}_{\text {feature encoder }}$

   Tout d'abord, dans les caractéristiques du noeud $X$ Appliquer l'encodeur de fonctions sur $\mathbf{F}$, Approximation linéaire parallèle personalized pagerank matrix.Donc,,Nous avons $h_{i}=\pi_{i}^{\mathrm{ppr}}$,Parmi eux $\pi_{i}^{\mathrm{ppr}}$ Est un vecteur de page personnalisé .À cette fin,, Nous utilisons la pondération des exemples pour atténuer le transfert de distribution causé par les biais inductifs des graphiques .En outre,Jean $Z=\mathbf{F}(\Theta, X)$ Et nous pouvons encore réduire le déplacement de distribution du réseau non linéaire proposé par le régularisation différentielle $d$.Dans nos expériences,,Nous avons montréSR-GNN Dans les deux autres GNNApplication sur le modèle:GCN[15]EtDGI[32].

5 Experiments

L'expérience

  

  

  

5 Conclusion

  Pour les études semi - supervisées, Examen de la cohérence de la représentation .

Modifier l'historique

2022-06-24 Créer un article

Table des matières

Interprétation de la thèse(SR-GNN)《Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data》Autre article Afghanistan

  1. Interprétation de la thèse(Graphormer)《Do Transformers Really Perform Bad for Graph Representation?》

    Informations sur le document Titre de l'article:Do Transformers Really Perform Bad for Graph Representation?Auteur de la thèse:Chengxuan Ying, Tianle Ca ...

  2. Interprétation de la thèse(MERIT)《Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning》

    Informations sur le document Titre de l'article:Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning ...

  3. Gaussian field consensusInterprétation de la thèse etMATLABRéalisation

    Gaussian field consensusInterprétation de la thèse etMATLABRéalisation Auteur:Kerugagi - La blogosphère http://www.cnblogs.com/kailugaji/ Un..Introduction ...

  4. MédecineAIInterprétation de la thèse |Circulation|2018| Application clinique de la détection automatique de l’échocardiographie

    Article de Wechat public:Alchimie d'apprentissage automatique.Maître Lian Dan.WX:cyx645016617.Bienvenue si vous avez des questions ou si vous souhaitez communiquer- Table des matières: @ Table des matières 0 Documents 1 Généralités 2 pipeline 3 Détails techniques 3.1 Préposition ...

  5. Classification des images:CVPR2020Interprétation de la thèse

    Classification des images:CVPR2020Interprétation de la thèse Towards Robust Image Classification Using Sequential Attention Models Liens vers les articles:https:// ...

  6. CVPR2020Interprétation de la thèse:Segmentation sémantique du réseau de convolution de croquis à la main

    CVPR2020Interprétation de la thèse:Segmentation sémantique du réseau de convolution de croquis à la main Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  7. Interprétation de la thèse 丨 modèle de reconnaissance des formulaires TableMaster

    Résumé: La reconnaissance tabulaire est divisée en quatre parties dans cette solution : Reconnaissance séquentielle de la structure du tableau .Détection de texte.Reconnaissance de texte. Alignement des cellules et des boîtes de texte . Le modèle utilisé pour la reconnaissance séquentielle de la structure des tableaux est basé sur MasterModifié, Le modèle de détection de texte utilise PSENet,Littératie ...

  8. Interprétation de la thèse(SimGRACE)《SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation》

    Informations sur le document Titre de l'article:SimGRACE: A Simple Framework for Graph Contrastive Learning without Data AugmentationAuteur de la thèse: ...

  9. itemKNNHistoire du développement----Interprétation de trois documents importants sur le système de recommandation

    itemKNNHistoire du développement----Interprétation de trois documents importants sur le système de recommandation Identification des symboles utilisés dans cet article 1.Item-based CF Processus de base: Calculer la matrice de similarité CosineSimilitude Coefficient de similarité Pearson Agrégation des paramètres à recommander Selon l'utilisateur ...

  10. CVPR2019 | Mask Scoring R-CNN Interprétation de la thèse

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN Interprétation de la thèse Auteur | Wen yongliang Orientation de la recherche | Détection des cibles.GAN Raison de la recommandation: Cet article interprète un article publié dansCVPR ...

Recommandation aléatoire

  1. phpUtiliseropensslEn coursRsaChiffrement des données longues(117)Décrypter(128) Et DES Cryptage et décryptage

    PHPUtiliseropensslEn coursRsaCryptage, Une erreur se produit si le texte clair à chiffrer est trop long ,Solutions:Quand il est crypté117 Chiffrement des caractères une fois , Puis Assemblez tous les textes en un seul texte : Nécessaire pour décrypter 128 Décrypter les caractères , Et les assembler en données . Plus ...

  2. WCF Développer des puits qui nécessitent une attention particulière Z

    Exécuter comme suit Traitement par lots:"C:\Program Files\Microsoft SDKs\Windows\v6.0A\Bin\svcutil.exe" http://127.0.0.1: ...

  3. 1.date Les ordres

    De:http://www.cnblogs.com/peida/archive/2012/12/13/2815687.html InlinuxDans l'environnement,Qu'il s'agisse de programmation ou d'autre maintenance,Le temps est essentiel,Et souvent utilisé ...

  4. js:Notes sur la structure des données2---Liste

    Liste: Définition:Un ensemble ordonné de données: function List() { this.listSize = 0; this.pos = 0; this.dataStore = []; this.find = ...

  5. wp7 HubTile

    Dans le dernierWindows Phone ToolkitOn peut voirHubTileCe contrôle, D'abord, découvrez ce que c'est. HubTile,En termes simples, Est de vous permettre d'ajouter des tuiles vives ou significatives à votre application (Tile).Hu ...

  6. POJ 2112 Optimal Milking(Débit maximal+Deux points)

    Liens vers les sujets TestsdinicModèle, Je me demande si ce modèle est vrai ou non. , Utilisez ceci pour ce sujet. dinicC'est impossible.. Avec l'optimisation WA,Sans optimisationTLE. #include <cstdio> #include <s ...

  7. Fence Repair

    Oui.n(n>=1&&n<=20000) Un bâton. . Maintenant, nous allons restaurer ces bâtons en un . Vous ne pouvez joindre que deux à la fois . Le coût est la longueur de ces deux pièces . Coût minimal de la restauration . Entrée:n,Et puis...nEntier positif,Représentant permanent ...

  8. BZOJ3258: Mission secrète

    Explication du problème: En fait, c'est une simple coupe minimale pour déterminer si la solution est unique.... Mais je l'ai écrit toute la matinée....T_T Prends ça.1-nLe bord le plus court du circuit est soulevé pour une coupe minimale. Et des,tSéparémentbfsLe jugement doit être rendu à un point de coupure.Si un point n'est pasbfsÀ, ...

  9. Demande de réseau selenium

    Demande de réseau selenium Processus partiel : Premièrement: Génération de moteurs crawler requestsDemande,EnvoyerschedulerModule de programmation,Entrer dans la file d'attente,En attente d'expédition.Deuxièmement:scheduler Le module commence à programmer ces requests,Dehors!, ...

  10. cefSharp Développer des essais

    Récemment utilisécefSharp Développer quelque chose de simple . Prenez un essai. ,Mise à jour non programmée. 1.AvecnugetAprès l'installation, Schéma à sélectionner x86Oux64,Sinon, la compilation signale une erreur(Jusqu'àChrome 55Version) 2.VersChromeInscriptionC# ...