千百汇

 找回密码
 立即注册
查看: 136|回复: 1

小视获奖方案解析 | ACCV 2022 国际细粒度图像分析挑战赛

[复制链接]

1

主题

4

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2023-3-5 10:27:35 | 显示全部楼层 |阅读模式
近日,ACCV 2022国际细粒度图像分析挑战赛最终成绩公布,小视科技参加了网络监督的细粒度识别赛道,在133支参赛队伍中脱颖而出,夺得第4名
ACCV 2022 细粒度图像分析挑战赛是由南京理工大学和澳大利亚University of Wollongong等主办的国际性赛事。本赛事涉及的细粒度图像分析,其目标是对包含5000个子类别共80多万张网络图像进行细粒度级别的图像定位、识别及检索,在真实场景下有着广泛的应用价值。
技术方案

主办方提供的数据中存在大量无关噪声数据,如图表、文本和地图,这无疑对训练结果产生影响。我们通过引入特征提取机制,建立噪声图像特征库进行特征匹配,筛选出近5万张噪声数据,提升训练集的纯净度。




筛选出的噪声样本

针对数据集中目标尺度变化差异大的问题,我们选取SwinTransFormer作为主干网络,利用多头注意力和移动窗口掩码机制,显著地提取目标特征,同时均衡训练速度和精度。


训练过程采用多种数据预处理方式,包括Resize、Flip、Mixup、Cutmix、AutoAugment、RandomErase,增加模型的泛化性。

我们加入了Sub-CenterArcface损失函数进行辅助监督Fintune模型,类内区分多个类别中心,降低噪声样本对算法的影响,促进模型进一步收敛;引入动态的Margin,对数据量少的类别给予更多的关注,降低长尾效应的影响。在训练后期我们发现辅助监督头的精度超过了主头的精度。


我们改进了数据采样器,使用Re-Balancing Sampler增加了数据量少类别的学习,通过差异化的训练模型,增强模型之间的互补性。
通过给测试集打上伪标签训练,进行动态化均衡处理,我们保证了预测类别的公平性。在此基础上进行自蒸馏,以进一步提高精度。


在测试阶段,我们使用了FiveCrops和 HorizontalFlip的TTA测试方法,单模型的精度提升明显。最终使用两个SwinTransFormer模型融合,提交比赛结果。
方案对比:小视方案 & 冠军方案



我们与冠军方案均选择了动态Margin和知识蒸馏的技术路线,融合模型数量分别为2个与17个。
在参数量是冠军模型的0.0395倍、计算量为0.04倍的情况下,我们之间的精度差距为2.87%。


同时,我们与第二、第三名之间的差距在0.33%以内。这显示出,我们的模型在效率上的优势,可更好地实现生产任务的转化。
生产运用

本次比赛丰富了我们在细粒度分类场景下的技术储备,有助于提升细粒度化算法的精度,推进视频结构化在校园、工地、工厂等真实场景的落地,如学生奔跑打架识别、加油站抽烟打电话预警、工厂中睡岗行为告警等。
回复

使用道具 举报

1

主题

10

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2025-5-24 07:15:38 | 显示全部楼层
very good
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|千百汇资讯

GMT+8, 2025-6-3 06:19 , Processed in 0.092755 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表