分类 AI科学 下的文章
大一统目标跟踪
跟踪中的任务主要有:
- 多目标跟踪(Multi Object Tracking, MOT)
- 单目标跟踪(Single Object Tracking, SOT)
- 多目标跟踪分割(Multi Object Tracking and Segmentation, MOTS)
- 视频目标分割(Video Object Segmentation, VOS)
这里,我暂时先不关心分割的任务。以下是MOT和SOT的对比:
Tasks | Reference | Class | Tracks per video | Typical Inputs | Representative Methods |
---|---|---|---|---|---|
MOT | No | specific | Tens or hundreds | High-resolution Whole Image | Detection+Association |
SOT | Initial box | agnostic | One | Small search region | One-Shot Detection |
可以看到两个任务之间的gap还是比较大的,总结一下,阻碍SOT和MOT两个任务统一的主要有三座大山:
- 被跟踪目标的属性不同(参考帧给定的一个,任意类别的目标 VS 几十几百个特定类别的目标);
- SOT和MOT关注的对应关系不同(SOT关注目标和背景的区分,MOT关注目标和轨迹的对应);
- 不同的输入(SOT输入为小的搜索范围,以节省计算量和消除潜在的干扰;MOT输入为高分辨率的全图,以尽可能检测到所有实例)。
大一统的目标跟踪这里是指,仅需要一套模型及参数,就可以在各个任务上取得优异的表现。我将介绍两个工作的这部分内容,看看它们是怎么翻过这些大山的。
DETR系列算法
Detection Transformer 是从2020年开始的一种全新的端到端的目标检测范式,图片通过CNN提取特征,然后将提取的特征展平输入transformer encoder-decoder,然后通过一系列查询,检测头输出每个查询的结果。查询的数量通常为100、300或900,远远少于之前的检测算法中的密集预测。
2022年MOT新SOTA
论文:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
代码:https://github.com/NirAharon/BOT-SORT
本篇工作达到了2022年MOT17和MOT20两个数据集的新SOTA。该方法是基于ByteTrack的改进,论文主要包括三个点:一是更改了卡尔曼滤波器中的状态向量(MOTA +0.01%, IDF1 +0.12%, HOTA +0.24%),二是添加了相机运动补偿(MOTA +0.64%, IDF1 +1.62%, HOTA +0.94%),三是提出了一种IoU和ReID余弦距离的融合方法(使用ReID MOTA +0.07%, IDF1 +0.54%, HOTA +0.06%)。标出的性能提升为在MOT17验证集的结果。接下来介绍一下这三个点的实现细节:
2023年MOT中极简单的新SOTA
论文:(WACV 2023) Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space
本工作(记作C-BIoU:Cascade Buffered IoU)主要用于不规则运动与不可区分的外观两个问题叠加的MOT场景。本工作提出的方法极为简单,但非常有效,实现了MOT 17、DanceTrack、SoccerNet、GMOT-40 四个数据集上的最新SOTA!本文提出两个创新点:一是提出用级联-BIoU实现相邻帧中不重叠的检测和轨迹的匹配(IDF1 +5.7%, HOTA +3.6%);二是用前n帧的平均运动代替卡尔曼滤波实现运动估计(IDF1 +1.2%, HOTA +1.5%),这样可以消除卡尔曼滤波中的线性运动假设以及相机运动带来的估计误差。标出的性能提升为在DanceTrack验证集的结果。
针对长尾分布的Eql损失
论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition
代码:
- https://github.com/ModelTC/United-Perception
- (已集成到 mmdetection) https://github.com/tztztztztz/eqlv2
解决长尾分布问题直观的做法有两类:设计数据重采样策略,或者对损失重加权(为不同类别或实例分配不同的权重)。大多数现有方法都是基于类别的频率设计的,然而这有个缺陷:这些方法不够鲁棒,因为广泛存在着容易的负样本和冗余的正样本。并且数据重采样还会增加训练时长。而本篇工作使用累积正负梯度比作为指标。它更稳定、更精确,能更好地反映模型的训练状态,对于长尾类别,正负梯度比接近0,而对于非长尾类别,正负梯度比接近1。本文根据当前的累积梯度动态地重新平衡正/负梯度,并以实现平衡梯度比为统一目标。基于此思想,论文得到了BCE loss、CE loss、Focal loss的均衡损失(Equalization loss)版本。
在本篇论文之前,论文作者已经在CVPR2020 《Equalization loss for long-tailed object recognition》和 CVPR2021 《Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection》发表了部分观点,而本篇论文像是对以往工作的大一统总结和扩展。
AAAI 2023实用AI挑战赛冠军方案分享
2023年1月,AAAI 2023 实用AI挑战赛落下帷幕。我所在的team_kppkkp队获得总榜冠军。在此,分享一下我们队本次比赛的方案,抛砖引玉。
本次比赛由商汤科技联合北航刘祥龙教授团队,携手安徽合肥数据空间研究院、天数智芯、科大讯飞、OpenI 启智新一代人工智能开源开放平台等机构与企业,在国际顶级人工智能会议AAAI 2023上举办,旨在搭建一座连通学术与工业化落地的桥梁,筛选出效果好、效率高、鲁棒性强的模型设计,推动人工智能领域朝实用方向发展。
VAE介绍
VAE,即变分自编码器,是常见的生成模型其中一类。常见的生成模型类型还有GAN、flow、DDPM等。
多目标跟踪-UAVMOT-CVPR2022
论文:Multi-Object Tracking Meets Moving UAV(CVPR2022)
多目标跟踪-OCSORT-CVPR2022
论文:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking(CVPR2022)