当前位置:网站首页>论文笔记: 多标签学习 MSWL
论文笔记: 多标签学习 MSWL
2022-06-25 21:57:00 【闵帆】
摘要: 分享对论文的理解. 原文见 Zhang, J., Li, S., Jiang, M., & Tan, K. C. (2020). Learning from weakly labeled data based on manifold regularized sparse model. IEEE Transactions on Cybernetics, (pp. 1–14).
1. 论文贡献
- 解决半监督的带缺失值多标签学习问题. 其实有缺失标签的时候, 已经是半监督了. 这篇论文强调的是, 有些样本一个标签都不给.
- 全局与局部标签相关性.
- 稀疏性学习模型, 条件属性的辨别性.
2. 基本符号
| 符号 | 含义 | 说明 |
|---|---|---|
| X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} X∈Rn×d | 属性矩阵 | |
| Y ∈ { − 1 , 1 } n × q \mathbf{Y} \in \{-1, 1\}^{n \times q} Y∈{ −1,1}n×q | 标签矩阵 | |
| C ∈ { 0 , 1 } n × q \mathbf{C} \in \{0, 1\}^{n \times q} C∈{ 0,1}n×q | 观测标签矩阵 | c i j = 0 c_{ij} = 0 cij=0 对应于 y i j = − 1 y_{ij} = -1 yij=−1 或 1 1 1 |
| Ω = { 1 , … , n } × { 1 , … , c } \mathbf{\Omega} = \{1, \dots, n\} \times \{1, \dots, c\} Ω={ 1,…,n}×{ 1,…,c} | 观测标签位置集合 | |
| W ∈ R m × l \mathbf{W} \in \mathbb{R}^{m \times l} W∈Rm×l | 系数矩阵 | 仍然是线性模型 |
| w i ∈ R m \mathbf{w}_i \in \mathbb{R}^m wi∈Rm | 某一标签的系数向量 | |
| C ∈ R l × l \mathbf{C} \in \mathbb{R}^{l \times l} C∈Rl×l | 标签相关性矩阵 | 成对相关性, 不满足对称性 |
3. 算法

基本的优化目标:
min W V ( X , C , W ) + γ Ω ( W ) + μ Z ( X , C , W ) , (1) \min_{\mathbf{W}} V(\mathbf{X}, \mathbf{C}, \mathbf{W}) + \gamma \Omega(\mathbf{W}) + \mu Z(\mathbf{X}, \mathbf{C}, \mathbf{W}), \tag{1} WminV(X,C,W)+γΩ(W)+μZ(X,C,W),(1)
其中 V V V 是损失函数, Z Z Z 根据标签相关性信息增强弱标签学习能力.
3.1 损失函数
V ( X , C , W ) = ∥ X W − Y ~ ∥ 2 2 , (2) V(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \|\mathbf{XW} - \tilde{\mathbf{Y}}\|_2^2, \tag{2} V(X,C,W)=∥XW−Y~∥22,(2)
其中 Y ~ \tilde{\mathbf{Y}} Y~ 是从 C \mathbf{C} C 计算而来, 希望拟合 Y \mathbf{Y} Y. 具体方法如下:
如果 c i j = 0 c_{ij} = 0 cij=0, 表示缺值或负标签, 则
c ~ i j = ∑ p ∈ N j c i p b p j , (3) \tilde{c}_{ij} = \sum_{p \in \mathcal{N}_j} c_{ip} b_{pj}, \tag{3} c~ij=p∈Nj∑cipbpj,(3)
其中 N j \mathcal{N}_j Nj 表示标签 j j j 的所有邻居标签, b p j b_{pj} bpj 表示标签 p p p 与标签 j j j 的相关性. 可以记为 (这里有点小的问题, 丢失了邻居信息)
C ~ = C ( B + I ) . \tilde{\mathbf{C}} = \mathbf{C}(\mathbf{B} + \mathbf{I}). C~=C(B+I).
y ~ i j = { 1 , c ~ i j ≥ 1 ; c ~ i j , 0 < c ~ i j < 1 ; 0 , c ~ i j ≤ 0. (4) \tilde{y}_{ij} = \left\{\begin{array}{ll} 1, & \tilde{c}_{ij} \geq 1;\\ \tilde{c}_{ij}, & 0 < \tilde{c}_{ij} < 1;\\ 0, & \tilde{c}_{ij} \leq 0. \end{array}\right.\tag{4} y~ij=⎩⎨⎧1,c~ij,0,c~ij≥1;0<c~ij<1;c~ij≤0.(4)
3.2 正则项
使用 l 2 , 1 \mathcal{l}_{2, 1} l2,1 范数控制稀疏性.
Ω ( W ) = ∥ W ∥ 2 , 1 = ∑ i = 1 n ∑ j = 1 t w i j 2 , \Omega(\mathbf{W}) = \|\mathbf{W}\|_{2, 1} = \sum_{i = 1}^n \sqrt{\sum_{j = 1}^t w_{ij}^2}, Ω(W)=∥W∥2,1=i=1∑nj=1∑twij2,
即逐行取 2 范数再相加. 更多理解见 这里.
3.3 标签相关性学习 (全局与局部的流形正则)
- 全局相关性
min b i ∥ C − i b i − c i ∥ 2 2 + λ ∥ b i ∥ , (6) \min_{\mathbf{b}_i} \|\mathbf{C}_{-i} \mathbf{b}_i - \mathbf{c}_i\|_2^2 + \lambda \|\mathbf{b}_i\|, \tag{6} bimin∥C−ibi−ci∥22+λ∥bi∥,(6)
其中 C − i \mathbf{C}_{-i} C−i 是将第 i i i 列标签全部置为 0 所获得的不完整矩阵. 该式的具体优化方法略, 反正我也没看懂. - 局部相关性
min S ∑ i = 1 n ∥ x i − ∑ j ∈ N i s j i x j ∥ 2 , (11) \min_{\mathbf{S}} \sum_{i = 1}^n \|\mathbf{x}_i - \sum_{j \in \mathcal{N}_i} s_{ji} \mathbf{x}_j\|^2, \tag{11} Smini=1∑n∥xi−j∈Ni∑sjixj∥2,(11)
其中 K K K 是邻居数量, s i j s_{ij} sij 是 x i \mathbf{x}_i xi 与其邻居 x j \mathbf{x}_j xj 的相似性.
注意原文有几个小问题:
- s i j ∈ S s_{ij} \in \mathbf{S} sij∈S 的写法不正确, 后者并非一个矩阵. 其实不写也没有歧义;
- 第 j j j 个邻居与第 j j j 个标签之间, 相关了一个间址, 因此使用 j ∈ N i j \in \mathcal{N}_i j∈Ni;
- 怀疑下标 2 没写, 导致不是 2 范数.
最后
Z ( X , C , W ) = α ∥ W − W B ∥ F 2 + β ∥ X W − S X W ∥ F 2 Z(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \alpha \|\mathbf{W} - \mathbf{WB}\|_F^2 + \beta \|\mathbf{XW} - \mathbf{SXW}\|_F^2 Z(X,C,W)=α∥W−WB∥F2+β∥XW−SXW∥F2
3.4 扩展到半监督学习
自悟.
4. 小结
- 三个部分各司其职.
- 流行学习.
边栏推荐
- 小程序绘制一个简单的饼图
- ES7/ES9 -- 新特性与正则
- Privatization lightweight continuous integration deployment scheme -- 03 deployment of Web services (Part 2)
- Civil Aviation Administration: by 2025, China will initially build a safe, intelligent, efficient and green aviation logistics system
- Actual combat: how to quickly change font color in typera (blog sharing - perfect) -2022.6.25 (solved)
- APP-新功能上线
- Why absolute positioning overlaps
- pdm导入vscode的实现方式
- Utilisation de la classe Ping d'Unity
- Equivalence class, boundary value, application method and application scenario of scenario method
猜你喜欢

实战:typora里面如何快捷改变字体颜色(博客分享-完美)-2022.6.25(已解决)

多模态数据也能进行MAE?伯克利&谷歌提出M3AE,在图像和文本数据上进行MAE!最优掩蔽率可达75%,显著高于BERT的15%...

How to use JMeter for interface testing

Multi modal data can also be Mae? Berkeley & Google proposed m3ae to conduct Mae on image and text data! The optimal masking rate can reach 75%, significantly higher than 15% of Bert

22 years of a doctor in Huawei
2. What is the geometric meaning of a vector multiplying its transpose?

Ribbon core ⼼ source code analysis

2022-2028 global industrial touch screen industry research and trend analysis report
![[eosio] eos/wax signature error is_ Canonical (c): signature is not canonical](/img/d8/a367c26b51d9dbaf53bf4fe2a13917.png)
[eosio] eos/wax signature error is_ Canonical (c): signature is not canonical

2022年河南省第一届职业技能大赛网络安全项目试题
随机推荐
2022年河南省第一届职业技能大赛网络安全项目试题
pdm导入vscode的实现方式
2、一个向量乘它的转置,其几何意义是什么?
ES6-- 模板字符串、对象的简化写法、箭头函数
adb常用命令
2022-2028 global industrial touch screen industry research and trend analysis report
[eosio] eos/wax signature error is_ Canonical (c): signature is not canonical
2022-2028 global carbon fiber unidirectional tape industry research and trend analysis report
Multi modal data can also be Mae? Berkeley & Google proposed m3ae to conduct Mae on image and text data! The optimal masking rate can reach 75%, significantly higher than 15% of Bert
String deformation (string case switching and realization)
The wisdom of questioning? How to ask questions?
How to use JMeter for interface testing
Canoe: the fifth simulation project: simulation + test
Unity的Ping类使用
Lecture 14 of the Blue Bridge Cup -- number theory [exercises]
Huawei cloud SRE deterministic operation and maintenance special issue (the first issue)
The applet draws a simple pie chart
1281_FreeRTOS_vTaskDelayUntil实现分析
Exclusive or operator simple logic operation a^=b
Actual combat: how to quickly change font color in typera (blog sharing - perfect) -2022.6.25 (solved)