CV面试面经宝典：目标检测共性问题总结与详解（2）

发布人：计算机视觉工坊时间：2023-02-21 来源：工程师发布文章

前景背景样本不均衡解决方案：Focal Loss,GHM与PISA

我们可以将前景背景类不平衡的解决方案分为四类：（i）硬采样方法，（ii）软抽样方法( Soft Sampling Methods)，（iii）无抽样方法和（iv）生成方法。

1. 软抽样方法

软采样调整每个样本在训练过程中迭代的权重（wi），这与硬采样不同，没有样本被丢弃，整个数据集用于更新参数中。该方法同样也可以应用在分类任务中。

1.1 Focal Loss

一般根据各类别数据占比，对 α 进行取值，即当class_1占比为30%时， α = 0.3，但是这个并不能解决所有问题。因为根据正负难易，样本一共可以分为以下四类：

虽然 α 平衡了正负样本，但对难易样本的不平衡没有任何帮助。其中易分样本（即，置信度高的样本）对模型的提升效果非常小，即模型无法从中学习大量的有效信息。所以模型应该主要关注于那些难分样本。（这个假设是有问题的，GHM对其进行了改进）。

我们希望模型能更关注容易错分的数据，反向思考，就是让模型别那么关注容易分类的样本。因此，Focal Loss的思路就是，把高置信度的样本损失降低

实验表明 γ 取2， α 取0.25的时候效果最佳。

1.2 Gradient Harmonizing Mechanism (GHM)

Focal Loss对容易分类的样本进行了损失衰减，让模型更关注难分样本，并通过 α \alpha α和 γ \gamma γ进行调参。这样相比CE loss 可以提高效果，但是也存在一些问题：

Focal loss有两个超参数（ α和 γ），调整起来十分费力。

Focal loss 是个静态loss，不会自适应于数据的分布，在训练的过程中会一直的变化。

GHM认为，类别不均衡可总结为难易分类样本的不均衡，而这种难分样本的不均衡又可视为梯度密度分布的不均衡。假设一个正样本被正确分类，它就是正易样本，损失不大，模型不能从中获益。而一个错误分类的样本，更能促进模型迭代。实际应用中，大量的样本都是属于容易分类的类型，这种样本一个起不了太大作用，但量级过大，在模型进行梯度更新时，起主要作用，使得模型朝这类数据更新

GHM中提到：有一部分难分样本就是离群点，不应该给他太多关注；样本不均衡的基本效果可以通过梯度密度直接统计得到，不需要调参。

简而言之：Focal Loss是从置信度p来调整loss，GHM通过一定范围置信度p的样本数来调整loss。

g的值表示样本的属性（easy/hard), 意味着对全局梯度的影响。尽管梯度的严格定义应该是在整个参数空间，但是g是样本梯度的成比例的norm，在这片论文中g被称作gradient norm。

不同属性的样本（hard/easy,pos/neg）可以由 gradient norm的分布来表示。在图1左中可以看出变化非常大。具有小 gradient norm 的样本具有很大的密度，它们对应于大量的负样本(背景)。由于大量的简单负样本，我们使用log轴来显示样本的分数，以演示具有不同属性的样本的方差的细节。尽管一个easy样本在全局梯度上相比hard样本具有更小的贡献，但是大量的easy样本的全部贡献会压倒少数hard样本的贡献，所以训练过程变得无效。除此之外，论文还发现具有非常大gradient norm的样本（very hard examples）的密度微大于中间样本的密度。并且发现这些very hard样本大多数是outliers，因为即使模型收敛它们始终稳定存在。如果收敛模型被强制学习分类这些outliers，对其他样本的分类可能不会那么的准确

根据gradient norm分布的分析，GHM关注于不同样本梯度贡献的协调。大量由easy样本产生的累积梯度可以被largely down-weighted并且outliers也可以被相对的down-weighted。最后，每种类型的样本分布将会使平衡的训练会更加的稳定和有效

1.3 PrIme Sample Attention (PISA)

PISA 方法和 Focal loss 和 GHM 出发点不一样， Focal loss 和 GHM 是利用 loss 来度量样本的难易分类程度，而本篇论文做者从 mAP 出发来度量样本的难易程度。

多标签图像分类任务中图片的标签不止一个，因此评价不能用普通单标签图像分类的标准，即mean accuracy，该任务采用的是和信息检索中类似的方法—mAP（mean Average Precision），虽然其字面意思和mean accuracy看起来差不多，但是计算方法要繁琐得多。

该作者提出改论文的方法考虑了两个方面:

样本之间不该是相互独立的或同等对待。基于区域的目标检测是从大量候选框中选取一小部分边界框，以覆盖图像中的全部目标。所以，不一样样本的选择是相互竞争的，而不是独立的。通常来讲，检测器更可取的作法是在确保全部感兴趣的目标都被充分覆盖时，在每一个目标周围的边界框产生高分，而不是对全部正样本产生高分。作者研究代表关注那些与gt目标有最高IOU的样本是实现这一目标的有效方法。

目标的分类和定位是有联系的。定位目标周围的样本很是重要，这一观察具备深入的意义，即目标的分类和定位密切相关。具体地，定位好的样本须要具备高置信度好的分类。

PISA由两个部分组成：

基于重要性的样本重加权（ISR）

分类感知回归损失（CARL）。

ISR(Importance-based Sample Reweighting)

ISR由正样本重加权和负样本重加权组成，分别表示为ISR-P和ISR-N。对于阳性样本，我们采用IoU-HLR作为重要性度量；对于阴性样本，我们采用Score-HLR。给定重要性度量，剩下的问题是如何将重要性映射到适当的损失权重。

oU-HLR:

为了计算IoU-HLR，首先将所有样本根据其最近的gt目标划分为不同的组。接下来，使用与gt的IoU降序对每个组中的样本进行排序，并获得IoU局部排名（IoU-LR）。随后，以相同的IoU-LR采样并按降序对其进行排序。具体来说，收集并分类所有top1 IoU-LR样本，其次是top2，top3，依此类推。这两个步骤将对所有样本进行排序

Score-HLR：

以类似于IoU-HLR的方式计算负样本的Score-HLR。与由每个gt目标自然分组的正样本不同，负样本也可能出现在背景区域，因此我们首先使用NMS将它们分组到不同的群集中。将所有前景类别中的最高分数用作负样本的得分，然后执行与计算IoU-HLR相同的步骤。

如何解决训练数据样本过少的问题

利用预训练模型进行迁移微调（fine-tuning），预训练模型通常在特征上拥有很好的语义表达。此时，只需将模型在小数据集上进行微调就能取得不错的效果。这也是目前大部分小数据集常用的训练方式。视觉领域内，通常会ImageNet上训练完成的模型。自然语言处理领域，也有BERT模型等预训练模型可以使用。

单样本或者少样本学习（one-shot，few-shot learning），这种方式适用于样本类别远远大于样本数量的情况等极端数据集。例如有1000个类别，每个类别只提供1-5个样本。少样本学习同样也需要借助预训练模型，但有别于微调的在于，微调通常仍然在学习不同类别的语义，而少样本学习通常需要学习样本之间的距离度量。例如孪生网络（Siamese Neural Networks）就是通过训练两个同种结构的网络来判别输入的两张图片是否属于同一类。3. 以上两种是常用训练小样本数据集的方式。此外，也有些常用的方式：数据集增强、正则或者半监督学习等方式来解决小样本数据集的训练问题。

如何解决类别不平衡的问题

机器学习中，解决样本不均衡问题主要有2种思路：数据角度和算法角度。从数据角度出发，有扩大数据集、数据类别均衡采样等方法。在算法层面，目标检测方法使用的方法主要有：

Faster RCNN、SSD等算法在正负样本的筛选时，根据样本与真实物体的IoU大小，设置了3∶1的正负样本比例，这一点缓解了正负样本的不均衡，同时也对难易样本不均衡起到了作用。

Faster RCNN在RPN模块中，通过前景得分排序筛选出了2000个左右的候选框，这也会将大量的负样本与简单样本过滤掉，缓解了前两个不均衡问题。

权重惩罚：对于难易样本与类别间的不均衡，可以增大难样本与少类别的损失权重，从而增大模型对这些样本的惩罚，缓解不均衡问题。

数据增强：从数据侧入手，可以在当前数据集上使用随机生成和添加扰动的方法，也可以利用网络爬虫数据等增加数据集的丰富性，从而缓解难易样本和类别间样本等不均衡问题，可以参考SSD的数据增强方法。

近年来，不少的研究者针对样本不均衡问题进行了深入研究，比较典型的有OHEM（在线困难样本挖掘）、S-OHEM、Focal Loss、GHM（梯度均衡化）。

OHEM：在线难例挖掘
OHEM算法（online hard example miniing，发表于2016年的CVPR）主要是针对训练过程中的困难样本自动选择，其核心思想是根据输入样本的损失进行筛选，筛选出困难样本（即对分类和检测影响较大的样本），然后将筛选得到的这些样本应用在随机梯度下降中训练。
Focal loss：专注难样本
为了解决一阶网络中样本的不均衡问题，何凯明等人首先改善了分类过程中的交叉熵函数，提出了可以动态调整权重的Focal Loss。
GHM：损失函数梯度均衡化机制

前面讲到的OHEM算法和Focal loss各有利弊：

1、OHEM算法会丢弃loss比较低的样本，使得这些样本无法被学习到。

2、FocalLoss则是对正负样本进行加权，使得全部的样本可以得到学习，容易分类的负样本赋予低权值，hard examples赋予高权值。但是在所有的anchor examples中，出了大量的易分类的负样本外，还存在很多的outlier，FocalLoss对这些outlier并没有相关策略处理。并且FocalLoss存在两个超参，根据不同的数据集，调试两个超参需要大量的实验，一旦确定参数无法改变，不能根据数据的分布动态的调整。

GHM主要思想：GHM做法则是从样本的梯度范数出发，通过梯度范数所占的样本比例，对样本进行动态的加权，使得具有小梯度的容易分类的样本降权，具有中梯度的hard expamle升权，具有大梯度的outlier降权。

手撕代码IOU

import numpy as np
def ComputeIOU(boxA, boxB):
    ## 计算相交框的坐标
    ## bboxA[0][1] 左上角坐标  bboxA[2][3] 右下角坐标
    x1 = np.max([boxA[0], boxB[0]])
    y1 = np.max([boxA[1], boxB[1]])
    x2 = np.min([boxA[2], boxB[2]])
    y2 = np.min([boxA[3], boxB[3]])
    ## 计算交区域，并区域，及IOU
    S_A = (boxA[2]-boxA[0]+1)*(boxA[3]-boxA[1]+1)
    S_B = (boxB[2]-boxB[0]+1)*(boxB[3]-boxB[1]+1)
    interArea = np.max([x2-x1+1, 0])*np.max([y2-y1+1,0])	##一定要和0比较大小，如果是负数就说明压根不相交
    unionArea = S_A + S_B - interArea
    iou = interArea/unionArea
    return iou
boxA = [1,1,3,3]
boxB = [2,2,4,4]
IOU = ComputeIOU(boxA, boxB)

手撕代码NMS

对整个bboxes排序的写法
import numpy as np
def nms(dets, iou_thred, cfd_thred):
    if len(dets)==0: return []
    bboxes = np.array(dets)
    ## 对整个bboxes排序
    bboxes = bboxes[np.argsort(bboxes[:,4])]
    pick_bboxes = []
#     print(bboxes)
    while bboxes.shape[0] and bboxes[-1,-1] >= cfd_thred:
        bbox = bboxes[-1]
        x1 = np.maximum(bbox[0], bboxes[:-1,0])
        y1 = np.maximum(bbox[1], bboxes[:-1,1])
        x2 = np.minimum(bbox[2], bboxes[:-1,2])
        y2 = np.minimum(bbox[3], bboxes[:-1,3])
        inters = np.maximum(x2-x1+1, 0) * np.maximum(y2-y1+1, 0)
        unions = (bbox[2]-bbox[0]+1)*(bbox[3]-bbox[1]+1) + (bboxes[:-1,2]-bboxes[:-1,0]+1)*(bboxes[:-1,3]-bboxes[:-1,1]+1) - inters
        ious = inters/unions
        keep_indices = np.where(ious<iou_thred)
        bboxes = bboxes[keep_indices]	## indices一定不包括自己
        pick_bboxes.append(bbox)
    return np.asarray(pick_bboxes)
dets = [[187, 82, 337, 317, 0.9], [150, 67, 305, 282, 0.75], [246, 121, 368, 304, 0.8]]
dets_nms =  nms(dets, 0.5, 0.3)
print(dets_nms)

不改变bboxes，维护orders的写法

始终维护orders，代表到原bboxes的映射（map）优化1：仅维护orders，不改变原bboxes 优化2：提前计算好bboxes的面积，以免在循环中多次重复计算

import numpy as np
def nms(dets, iou_thred, cfd_thred):
    if len(dets)==0: return []
    bboxes = np.array(dets)
    ## 维护orders
    orders = np.argsort(bboxes[:,4])
    pick_bboxes = []
    x1 = bboxes[:,0]
    y1 = bboxes[:,1]
    x2 = bboxes[:,2]
    y2 = bboxes[:,3]
    areas = (x2-x1+1)*(y2-y1+1) ## 提前计算好bboxes面积，防止在循环中重复计算
    while orders.shape[0] and bboxes[orders[-1],-1] >= cfd_thred:
        bbox = bboxes[orders[-1]]
        xx1 = np.maximum(bbox[0], x1[orders[:-1]])
        yy1 = np.maximum(bbox[1], y1[orders[:-1]])
        xx2 = np.minimum(bbox[2], x2[orders[:-1]])
        yy2 = np.minimum(bbox[3], y2[orders[:-1]])
        inters = np.maximum(xx2-xx1+1, 0) * np.maximum(yy2-yy1+1, 0)
        unions = areas[orders[-1]] + areas[orders[:-1]] - inters
        ious = inters/unions
        keep_indices = np.where(ious<iou_thred)
        pick_bboxes.append(bbox)
        orders = orders[keep_indices]
    return np.asarray(pick_bboxes)
dets = [[187, 82, 337, 317, 0.9], [150, 67, 305, 282, 0.75], [246, 121, 368, 304, 0.8]]
dets_nms = nms(dets, 0.5, 0.3)
print(dets_nms)

NMS的改进思路

根据手动设置阈值的缺陷，通过自适应的方法在目标系数时使用小阈值，目标稠密时使用大阈值。例如Adaptive NMS
将低于阈值的直接置为0的做法太hard，通过将其根据IoU大小来进行惩罚衰减，则变得更加soft。例如Soft NMS，Softer NMS。
只能在CPU上运行，速度太慢的改进思路有三个，一个是设计在GPU上的NMS，如CUDA NMS，一个是设计更快的NMS，如Fast NMS，最后一个是掀桌子，设计一个神经网络来实现NMS，如 ConvNMS。
IoU的做法存在一定缺陷，改进思路是将目标尺度、距离引进IoU的考虑中。如DIoU

IOU相关优化(giou,diou,ciou)

GIOU

普通IOU是对两个框的距离不敏感的，下面两张图中，左图预测框的坐标要比右图预测框的坐标更接近真实框。但两者的IOU皆为0，如果直接把IOU当作loss函数进行优化，则loss=0，没有梯度回传，所以无法进行训练。

但是，GIOU也存在它的缺点：当两个预测框高宽相同，且处于同一水平面时，GIOU就退化为IOU。此外，GIOU和IOU还有两个缺点：收敛较慢、回归不够准确。

DIOU

在介绍DIOU之前，先来介绍采用DIOU的效果：如图，黑色代表anchor box，蓝色红色代表default box，绿色代表真实目标存在的框GT box的位置，期望红蓝框与绿框尽可能重合。第一行是使用GIOU训练网络，让预测边界框尽可能回归到真实目标边界框中，迭代到400次后才勉强重合。第二行使用DIOU训练网络，到达120步时，发现与目标边界框已经完全重合。可以看出，相对于GIOU，DIOU的不仅收敛速度更快，准确率也更高。

我们再看一组图，图中给出了3组目标边界框与目标边界框的重合关系，显然他们的重合位置不相同的，我们期望第三种重合（两个box中心位置尽可能重合。这三组计算的IOU loss和GIoU loss是一模一样的，因此这两种损失不能很好表达边界框重合关系）。但是DIOU计算出的三种情况的损失是不一样的，显然DIOU更加合理。