分类 AI科学 下的文章

论文:OneChart: Purify the Chart Structural Extraction via One Auxiliary Token
主页及demohttps://onechartt.github.io/

《论语》中说:“知之为知之,不知为不知,是知也”。从神经网络兴起以来,人们就没有停止过对这种黑盒模型应用在生产环境的担心。在AI 1.0中大部分模型还至少会输出一个置信度得分可供参考;然而对于AI2.0时代的VLMs来说,所有的结果以文本的形式吐出,这加重了人们对模型安全性的焦虑。让模型知道自己的能力边界,不要产生致命错误,这点十分必要,也是目前的难点。

- 阅读剩余部分 -

SAM 好比在视网膜层面,能力是很low-level的,举个例子它可以对图片信息进行简单的切分,但它不知道左边的一坨像素和右边的一坨像素是一个品种的狗。DINOv2好比大脑中某块视觉区,好比刚出生不久的婴儿,它是纯视觉的,可以完成视觉层面的目标聚类,知道左边的一坨像素和右边的一坨像素是一种东西,但没有语言系统不知道这种东西叫“金毛犬”。CLIP就是更近一步,实现了视觉和语言的关联,好比5岁的小孩;然而由于数据、训练方式、输入分辨率等原因,CLIP没正经读过书看过图表,所以在做dense OCR任务时Vary自己训了个encoder,在做chart任务时Onechart也自己训了个encoder,好比让小孩上个学。🐶
Vision encoders百花齐放,与decoders相匹配。当decoder是LLM时,需要LLM能看懂的encoder。

Vision-Language 的 Vision Encoders

1. CLIP 2021.2.26

论文:Learning Transferable Visual Models From Natural Language Supervision(OpenAI in ICML2021)

如下图所示,将图片和文本描述通过网络都得到768维的Embedding,其中文本编码器使用transformer,图片编码器使用了ResNet和ViT两种结构进行实验,ViT的有4个模型:输入224px 的 ViT-B/32, ViT-B/16 (196 tokens), ViT-L/14 (256 tokens);输入336px的 ViT-L/14 (576 tokens)。预训练使用了400M(4亿)个图像文本对,每个batch采样三万多个这样的配对,通过对比学习,配对的Embedding位置处为1,非配对处为0进行交叉熵损失训练。

在测试时支持zero-shot推理,如下面右图所示:首先分别获得图像和文本的embedding,对提取的embedding进行归一化用来算相似度image_features /= image_features.norm(dim=-1, keepdim=True), text_features /= text_features.norm(dim=-1, keepdim=True)。通过计算图片Embedding和各个候选("a photo of [cls_name]")的相似度,相似度大于某个阈值或者topk的为输出类别结果。

CLIP

- 阅读剩余部分 -

本文重点介绍了一些 VLM 早期的代表性工作。其中,CLIP作为视觉语言模型(VLM)的基础和开山之作,创新性提出了ITC对比损失用于对齐图片级视觉和语言Embedding,但它只能完成判断,无法完成生成式任务。之后BLIP的出现补足了生成的能力,后来Flamingo、LLaVA和BLIP2进一步充分利用了LLM的生成能力,这三个工作也代表了将 image embedding 接入到 LLM 的三种典型的 “Adapter” 方法分别是:XAttn (Flamingo)、Q-Former (BLIP2) 和 MLP (LLaVA)。但它们三个都只能生成文字,Emu进一步补足了图片生成的能力,并创新性提出了一种自回归图片tokens的目标。上述模型针对的图片输入都是全图输入,Shikra和chatSpot则提出了可以接受点和框询问特定位置的MLLM,这种能力被称为Referential对话的能力。Donut和Nogat则特别针对OCR任务提出。

⚠️注意:本文信息几乎截止至2023.8.31,部分内容已缺乏时效性,不具备足够的参考价值

- 阅读剩余部分 -

One-Pass Evaluation (OPE)

用ground-truth中目标的位置初始化第一帧,然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这是最常用的评估方法,指标包括曲线和数值指标。最早由OTB数据集提出。

1. success、precision曲线

这两种曲线可以说是几乎所有论文都在用的,

uav123
  1. success plot of OPE
    这主要考察的是重叠率,横坐标是iou阈值,纵坐标是成功的比例。
  2. precision plot of OPE
    这主要是衡量预测与gt的中心之间的距离,横坐标是像素,纵坐标是成功的比例。

2. 数值指标

  1. Overlap Success Rate (OSR),与success plot对应,越大越好,OSR代表预测框和gt的IoU大于阈值$\beta$的比例,大部分数据集$\beta=0.5$。

  2. Distance Precision Rate (DPR),与precision plot对应,越大越好,DPR代表预测框的中心和gt框中心的距离小于阈值$\alpha$的比例,大部分数据集$\alpha=5$,少数是20。

  3. AUC: area under curve 成功率图的曲线下面积,成功率图指随着$beta$的变化,OSR的变化曲线图。越大越好。

  4. OP50:$\beta=0.5$时的OSR。越大越好。

  5. OP75:$\beta=0.75$时的OSR。越大越好。

- 阅读剩余部分 -

跟踪中的任务主要有:

  • 多目标跟踪(Multi Object Tracking, MOT)
  • 单目标跟踪(Single Object Tracking, SOT)
  • 多目标跟踪分割(Multi Object Tracking and Segmentation, MOTS)
  • 视频目标分割(Video Object Segmentation, VOS)

这里,我暂时先不关心分割的任务。以下是MOT和SOT的对比:

Tasks Reference Class Tracks per video Typical Inputs Representative Methods
MOT No specific Tens or hundreds High-resolution Whole Image Detection+Association
SOT Initial box agnostic One Small search region One-Shot Detection

可以看到两个任务之间的gap还是比较大的,总结一下,阻碍SOT和MOT两个任务统一的主要有三座大山:

  1. 被跟踪目标的属性不同(参考帧给定的一个任意类别的目标 VS 几十几百特定类别的目标);
  2. SOT和MOT关注的对应关系不同(SOT关注目标和背景的区分,MOT关注目标和轨迹的对应);
  3. 不同的输入(SOT输入为小的搜索范围,以节省计算量和消除潜在的干扰;MOT输入为高分辨率的全图,以尽可能检测到所有实例)。

大一统的目标跟踪这里是指,仅需要一套模型及参数,就可以在各个任务上取得优异的表现。我将介绍两个工作的这部分内容,看看它们是怎么翻过这些大山的。

- 阅读剩余部分 -

Detection Transformer 是从2020年开始的一种全新的端到端的目标检测范式,图片通过CNN提取特征,然后将提取的特征展平输入transformer encoder-decoder,然后通过一系列查询,检测头输出每个查询的结果。查询的数量通常为100、300或900,远远少于之前的检测算法中的密集预测。

- 阅读剩余部分 -

论文:BoT-SORT: Robust Associations Multi-Pedestrian Tracking

代码:https://github.com/NirAharon/BOT-SORT

本篇工作达到了2022年MOT17和MOT20两个数据集的新SOTA。该方法是基于ByteTrack的改进,论文主要包括三个点:一是更改了卡尔曼滤波器中的状态向量(MOTA +0.01%, IDF1 +0.12%, HOTA +0.24%),二是添加了相机运动补偿(MOTA +0.64%, IDF1 +1.62%, HOTA +0.94%),三是提出了一种IoU和ReID余弦距离的融合方法(使用ReID MOTA +0.07%, IDF1 +0.54%, HOTA +0.06%)。标出的性能提升为在MOT17验证集的结果。接下来介绍一下这三个点的实现细节:

- 阅读剩余部分 -

论文:(WACV 2023) Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

本工作(记作C-BIoU:Cascade Buffered IoU)主要用于不规则运动与不可区分的外观两个问题叠加的MOT场景。本工作提出的方法极为简单,但非常有效,实现了MOT 17、DanceTrack、SoccerNet、GMOT-40 四个数据集上的最新SOTA!本文提出两个创新点:一是提出用级联-BIoU实现相邻帧中不重叠的检测和轨迹的匹配(IDF1 +5.7%, HOTA +3.6%);二是用前n帧的平均运动代替卡尔曼滤波实现运动估计(IDF1 +1.2%, HOTA +1.5%),这样可以消除卡尔曼滤波中的线性运动假设以及相机运动带来的估计误差。标出的性能提升为在DanceTrack验证集的结果。

- 阅读剩余部分 -

论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition

代码:

解决长尾分布问题直观的做法有两类:设计数据重采样策略,或者对损失重加权(为不同类别或实例分配不同的权重)。大多数现有方法都是基于类别的频率设计的,然而这有个缺陷:这些方法不够鲁棒,因为广泛存在着容易的负样本和冗余的正样本。并且数据重采样还会增加训练时长。而本篇工作使用累积正负梯度比作为指标。它更稳定、更精确,能更好地反映模型的训练状态,对于长尾类别,正负梯度比接近0,而对于非长尾类别,正负梯度比接近1。本文根据当前的累积梯度动态地重新平衡正/负梯度,并以实现平衡梯度比为统一目标。基于此思想,论文得到了BCE loss、CE loss、Focal loss的均衡损失(Equalization loss)版本。

在本篇论文之前,论文作者已经在CVPR2020 《Equalization loss for long-tailed object recognition》和 CVPR2021 《Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection》发表了部分观点,而本篇论文像是对以往工作的大一统总结和扩展。

- 阅读剩余部分 -