当前位置:网站首页>CVPR22收录论文|基于标签关系树的层级残差多粒度分类网络
CVPR22收录论文|基于标签关系树的层级残差多粒度分类网络
2022-06-28 00:20:00 【支付宝技术】
动 机
基于有监督式深度学习的图像识别任务中一个方面要求是构建整理大规模、高质量的标注数据,这就对图像质量和标注人员的背景知识有比较高的要求。例如,在细粒度分类任务中,标注人员需要依赖大量的领域知识去区分各种种类的鸟以及不同型号的舰船,如图1所示。在图1中,标注人员需要借助鸟类专家的知识才能辨认黑脚信天翁与黑背信天翁,拥有一般鸟类知识的人员或许会将这两种鸟类归类为信天翁,而缺乏鸟类知识的人员可能只会将这两种鸟类归类为鸟。
类似地,标注人员需要借助军事舰船专家的知识才能有效区分尼米兹级航母与企业级航母,而缺乏相关背景知识的人员可能会将这两类舰船归类为航母。也就是说,同一张图片会被拥有不同背景知识的标注人员标注到不同层级粒度的类别上。
图 1: 不同种类的信天翁以及不同型号的航母
除了背景知识对标注产生的影响,诸如鸟类辨别中的关键区域被遮挡、图像分辨率较低、或者图像比较模糊等图像质量因素也会干扰标注人员对于图像目标属于层级多粒度标签中的哪一类的判断,如图2所示。但是,传统的图像识别数据集类别设定中,针对某个特定任务例如通用图像分类任务或者细粒度分类任务,类别标签往往只位于同一层级中,无法鲁棒地利用标注到不同层级上的图片,对标注的要求较高。
为了降低图像质量以及背景知识等带来的对标注数据的高要求、充分利用具有不同层级粒度标签的样本,设计建模目标层级语义结构的层级多粒度识别算法对于提升深度神经网络的鲁棒性具有十分重要的作用。为此,浙江大学联合蚂蚁集团提出了一种基于标签关系树的层级残差多粒度分类网络,收录到CVPR2022中。
图 2: 由于遮挡、分辨率等图像质量的变化与专家背景知识的差异,导致目标可能被标注到不同层级上
算法介绍
我们从三点观察出发构建我们的层级多粒度分类算法:(1)由于细粒度类别可以根据不同层次的抽象向上不停迭代归类形成树形类别结构,我们构建对应的标签关系树建模层级类别间的语义关系;(2) 基于标签关系树设计复合损失函数,使得具有不同层级粒度标注的样本在学习时可以传递层级间的知识;(3)现实世界中位于低层级的子类除了拥有自己的独特属性还会进一步继承来自父类的属性,我们首先为每个层级设置专有的特征提取层,根据主干网络输出的特征提取各个层级相关的特征。
然后我们参考深度残差网络中经典的残差连接 设计,实现为所有父类层级的特征以残差连接的方式融合到子类层级专有的特征中,进而用于当前层级类别分类的层级残差网络(HRN)。
2.1 标签关系树
标签关系树
2.2层级残差网络
图3: 层级残差网络结构图
基于残差跨层级连接的层级残差网络(HRN)由一个主干特征提取网络、层级特征交互模块、以及两个并行的输出通道构成,如图3所示。任何常用的网络都可以作为主干网络用来提取输入图像的特征,我们选用广泛使用的深度残差网络 ResNet-50 作为 HRN 网络的主干网络。层级特征交互模块包括每个层级专有的特征提取层与残差连接部分。层级专有特征提取层网络结构一致,都包含两层卷积层后接两层全连接层(FC)。层级专有特征提取层根据主干网络产生的共享输入特征提取每个层级专有的特征。
残差连接部分首先线性组合来自粗粒度父类层级的特征与细粒度子类层级的特征,反映子类不仅具有属于自己的独特属性还继承了来自父类的属性。父类层级专有特征提取层可以视为残差连接将属于自己层级的特征逐层向下结合到子类层级的特征中。然后,我们对组合后的特征应用非线形变换(ReLU)后送入后续网络层。网络最后依然设置两路并行的输出通道。
第一路输出通道
2.3 复合损失函数
给定一幅输入图像
●
●,代表由标签关系树定义的层级约束
●
如果输入图像
分析边缘概率的计算公式,我们可以发现:(1)图
●
为了进一步加强网络对于细粒度叶子节点的区分能力,我们进一步结合多类交叉熵损失函数,形成最后的复合损失函数优化整个网络:
实 验
3.1 数据集
我们在常用的三套细粒度分类数据集:CUB-200-2011、FGVC-Aircraft、Stanford Cars。依据维基百科为每个数据集设定层级标签关系树,其中CUB-200-2011包含38 orders, 38 families, 200 species三个层级;FGVC-Aircraft具有30 makers, 70 families, 100 models三个层级;以及Stanford Cars具有9 car types, 196 car makers两个层级。
3.2 实验指标
我们采用两套实验指标进行评价:衡量每个层级的准确率(OA)以及层级分类中的常用指标
3.3 实验设计
我们模拟现实世界中存在的两点限制:(1)模拟主观专家知识的差异:将位于细粒度叶子类别中的样本,选取其中0%,30%,50%,,70%以及90%的样本,重新标记到其对应的父类标签;(2)模拟图像质量的影响:将选取的重标记样本进一步降低其图像的分辨率。
3.4 消融实验
在表1中我们验证了层级残差网络中包含的层级专有特征提取层(GSB)、层级特征线性组合(LC)、以及针对组合后的层级特征的非线性变换(ReLU)各部分的作用:
表1:通过逐步添加HRN网络中的关键部分:层级专有特征提取层(granularity-specific block, GSB)、层级间特征的线性组合(linear combination, LC)、以及最后对于组合特征的非线形变换 (ReLU)获得 CUB-200-2011 数据集中最后一层级上对应重标记比例为0%的OA(%) 实验结果
在表2中我们验证了复合损失函数中多类交叉熵损失函数的作用:
表2: 不同重标记比例下验证概率分类损失函数

在表3中我们对比了复合损失函数与传统的层级分类损失函数对比的结果:
表3:CUB-200-2011数据集中最后一层级上重标记比例为0%对比复合损失函数与传统层级分类损失函数的OA(%) 实验结果
在图4中我们利用Grad-Cam可视化算法展示各个层级响应的二维激活热力图:
图4:鸟类数据集上来自同一目(order: Passeriformes)同一科(family: Troglodytidae)下面两种 种类(species: House Wren 与 Marsh Wren)的鸟类图片上,我们方法产生的二维激活热力图
3.5 对比实验
我们对比了4种公认的层级多粒度分类方法:HMC-LMLP[1] 、HMCN[2]、Chang et al.[3]、C-HMCNN[4]。我们汇总平均在各个数据集、不同重标记比例下各个对比方法的
表4: 在各个数据集、不同重标记比例下对比方法的平均
类似地,我们利用Grad-Cam算法展示各个对比方法在不同层级上的二维激活热力图,结果见图5:
图5: CUB-200-2011 数据集中来自同一目(order: Passeriformes)同一科(family: Troglodytidae) 下面两种种类(左边:House Wren,右边:Marsh Wren)的鸟类图片上,不同对比方法在三层层级 上各自的感兴趣响应区域示例
写在最后
层级分类算法已在蚂蚁集团内容安全相关的业务中进行应用,欢迎大家就我们提出的算法提出问题、交流学习。
论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Label_Relation_Graphs_Enhanced_Hierarchical_Residual_Network_for_Hierarchical_Multi-Granularity_CVPR_2022_paper.pdf
代码:https://github.com/MonsterZhZh/HRN
参考文献
Ricardo Cerri, et al. Reduction strategies for hierarchical multi-label classification in protein function prediction. BMC Bioinformat., 17(1):373, 2016.
Jonatas Wehrmann, Ricardo Cerri, and Rodrigo Barros. Hierarchical multi-label classification networks. ICML, 2018.
Dongliang Chang, et al. Your” flamingo” is my” bird”: Fine-grained, or not. CVPR, 2021.
Eleonora Giunchiglia and Thomas Lukasiewicz. Coherent hierarchical multi-label classification networks. NeurIPS, 2020.
本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
边栏推荐
- 声网 VQA:将实时互动中未知的视频画质用户主观体验变可知
- General process after reference layer reboot
- Figure out the difference between MIT, BSD and Apache open source protocols
- Ten MySQL locks, one article will give you full analysis
- How to handle computer security certificate errors
- 网络爬虫是什么
- 对比学习中的4种经典训练模式
- 205. 同构字符串
- Lmsoc: a socially sensitive pre training method
- 面试官问:JS的this指向
猜你喜欢
Jenkins - 邮件通知 Email Notification 插件
1382. 将二叉搜索树变平衡-常规方法
Implementation of timed tasks in laravel framework
Class initialization and callback usage
Adding text labels to cesium polygons the problem of polygon center point offset is solved
Cesium obtains the latitude and longitude range of the screen
基于AM335X开发板 ARM Cortex-A8——Acontis EtherCAT主站开发案例
Cesium 多边形(polygon)extrudedHeight 和 height 的区别
Machine learning notes - time series as features
Appium自动化测试基础— 补充:App的包名(appPackage)和启动名(appActivity)
随机推荐
ShardingSphere-proxy-5.0.0建立mysql读写分离的连接(六)
[Yocto RM]8 - OpenEmbedded Kickstart (.wks) Reference
Cesium anti aliasing (lines, borders, etc.)
How to optimize the "message" list of IM
How to handle computer security certificate errors
Database query optimization: master-slave read-write separation and common problems
类的初始化与回调的用法
TI AM3352/54/59 工业核心板硬件说明书
Hi, you have a code review strategy to check!
Ten MySQL locks, one article will give you full analysis
Adobe Premiere Basics - common video effects (cropping, black and white, clip speed, mirroring, lens halo) (XV)
Cesium 多边形增加文字标签(polygon 加 label)多边形中心点偏移问题解决
Machine learning notes - time series as features
Jenkins - Pipeline 概念及创建方式
深入解析kubernetes controller-runtime
[Yocto RM] 2 - Yocto Project Terms
Shardingsphere-proxy-5.0.0 establish MySQL read / write separation connection (6)
[Yocto RM]1 - System Requirements
Take n multiple table names of a database as the values of a column in another table (the range can be a table in another database)
Adding text labels to cesium polygons the problem of polygon center point offset is solved