中国科学院大学学报  2025, Vol. 42 Issue (4): 554-564   PDF    
P2P-Loc: 点到点微小人物定位
杨溢, 余学辉, 王岿然, 余文文, 王子鹏, 邹佳凌, 韩振军, 焦建彬     
中国科学院大学电子电气与通信工程学院,北京 100049
摘要: 边界框是视觉目标定位任务中最常用的标注方法。然而,由于边界框标注对大量精确标注的边界框的依赖,导致其在一些实际场景中难以应用。针对此问题,提出一种新的基于点标注的框架用来定位人体目标,将每个人标注为一个粗略点(CoarsePoint)而不是精确的边界框从而简化标注流程,该点可以是目标范围内的任何点。尽管这极大简化了数据标注的流程和代价,但CoarsePoint标注不可避免地降低了标签的可靠性,并在训练过程中造成网络混乱。因此,提出一种点自优化方法,以自我调整的方式迭代更新点标注。实验结果表明,所提方法有效减轻了标签的不确定性并逐步提高了定位性能,实现目标定位性能的同时可节省高达80%的标注成本。
关键词: 微小人体目标定位    点监督    检测精度    点到点    边界框标注    
P2P-Loc: point to point tiny person location
YANG Yi, YU Xuehui, WANG Kuiran, YU Wenwen, WANG Zipeng, ZOU Jialing, HAN Zhenjun, JIAO Jianbin     
School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Bounding-box annotation form has been the most frequently used method for visual object localization tasks. However, bounding-box annotation relies on a large amount of precisely annotating bounding boxes, and it is expensive and laborious. It is impossible to be employed in practical scenarios and even redundant for some applications (such as tiny person localization) that the size would not matter. Therefore, we propose a novel point-based framework for the person localization task by annotating each person as a coarse point (CoarsePoint) instead of an accurate bounding box that can be any point within the object extent. Then, the network predicts the person's location as a 2D coordinate in the image. Although this greatly simplifies the data annotation pipeline, the CoarsePoint annotation inevitably decreases label reliability (label uncertainty) and causes network confusion during training. As a result, we propose a point self-refinement approach that iteratively updates point annotations in a self-paced way. The proposed refinement system alleviates the label uncertainty and progressively improves localization performance. Experimental results show that our approach has achieved comparable object localization performance while saving up to 80% of annotation cost.
Keywords: tiny person localization    point-based supervision    detection accuracy    point to point    bounding-box annotation    

目标定位在计算机视觉领域中至关重要,包括视觉监控、驾驶辅助和移动机器人等[1-10]。随着深度学习和大规模边界框或精确点标注的兴起,目标定位研究取得了前所未有的发展。精确的目标定位通常需要精确的标注,如图 1所示。为了追求高精度定位,通常使用一个紧致的边界矩形表示每个目标。例如,姿势估计将人体建模为固定位置的17个关键点。当目标较远或者分辨率较低时[11-13],由于物体尺寸小、信噪比低,对目标进行精确标注是费时甚至不可行的。因此,我们提出一个新的框架:基于点标注的目标定位研究,可以基于容易获得的点监督信号定位物体。

Download:
图 1 不同标注形式的比较 Fig. 1 Comparison of different annotation forms

本文提出一个新的计算机视觉任务,以粗略标注的点监督来实现目标定位,被称为CoarsePoint(粗略点)。由于目标区域内的任何一点都可以作为CoarsePoint,因此大大减少了数据标注所需要的人力。然而,由于标签的不确定性,例如标注实例外观的显著变化和特征的不确定性,用不准确的监督信息进行训练会降低模型性能。例如,人体的不同部位(例如头、躯干或脚)可能在训练集中被标记为正例,而其他部位将被设置为负例,如图 2所示。不同实例的头部可能被标记为正例或负例。标签的不确定性带来2个负面影响:一方面,不同实例中的相同部分可能被标注为正例或负例,这会导致定位模型偏离预期;另一方面,对于同类物体,不同的部分可能被标记为正例,这将导致网络预测同一物体的不同部位,增加了假正例的风险。为解决CoarsePoint的负面影响,我们提出一个简单而有效的策略——点自优化。点自优化的思想是,当与定位模型学习(例如,CNN训练)相结合时,粗略标注的点可以以自我调整的方式迭代优化。点自优化研究了标注和语义特征的统计特性,追求标签不确定性的逐步降低和模型训练的更好收敛。

Download:
图 2 CoarsePoint标注的难点 Fig. 2 Challenge of the CoarsePoint annotation

本研究的主要贡献包括:提出一个CoarsePoint视觉任务,并在放宽的点监督下,为微小人体目标定位设置了可靠的基准。

1) 提出了自优化的方法来改善粗略点,实现监督信号的统计稳定性。

2) CoarsePoint可取得与基于精确边界框标注的方法相近的实验结果,同时节省高达80%的标注成本。

1 相关工作

根据语义和几何特征、边界框、点等以不同的方式对目标进行建模。为更好地说明我们提出的任务,分别从不同的监督和评价方式回顾相关工作。

1.1 基于精准边界框的目标标注

与CoarsePoint不同,基于边界框的建模方法表示的是位置和尺度信息。根据监督方式的不同,它可以分为全监督和弱监督。

通用目标检测模型将物体表示为边界框。作为实例级的标注,创建一个边界框以呈现物体的中心和尺度。在这种情况下,越来越多的全监督检测器[14-22]期望能够准确地表示物体。但是,这样的监督形式会消耗大量的人力资源,而且在实例层面对物体进行标注需要花费大量的时间和繁重的工作量。

为降低标注成本并充分利用海量网络数据,弱监督目标检测(weakly supervised object detection, WSOD)[23-27]仅仅使用图像级标注训练检测器,这将导致WSOD只关注图像的局部区域,并且由于没有实例级约束而缺乏区分实例的能力。与WSOD不同的是,弱监督目标定位利用最后一个卷积层的激活图生成基于目标边界框估计的语义信息来感知定位[28]

上述任务的评估均基于边界框。使用指标平均精度(average precision, AP)和正确定位[29]来评估检测器的性能。与上述方法不同,CoarsePoint没有下游任务,也不需要关注物体的几何结构。只需要关注定位点并根据预测点的位置评估性能,避免了边界框标注。

1.2 基于点的目标标注

对于一些视觉任务,不需要以边界框的形式对物体进行建模。最近研究开始关注用于表示部分或整个物体的点标注形式。

人体关键点检测也被称为人体姿态估计,旨在准确定位人体关节点的位置。COCO(common objects in context)数据集[30]包含超过200 000张图片和250 000个标有17个关键点的人体目标实例。在推理过程中,姿势检测器预测每个可见关键点的位置。与COCO类似,Human3.6 M[31]是最广泛的3D人体姿态基准之一。以此数据集为基准,检测器需要预测每个关键点在三维坐标系中的位置。所使用的三点标注形式数据集是为了在不考虑其他冗余信息的情况下准确定位目标,或者通过中心点的形式减少标注负担[32]

目标检测是提出一项新任务[33]来估计没有带标注的边界框的目标位置。在目标定位中,当估计位置和真实值之间的距离小于d时,被视为正例,反之亦然。然后可以计算精确率和召回率的评估结果。此外,还采用几个评估指标来指示位置点的数量是否合适,例如平均绝对误差、均方根误差和平均绝对百分比误差[34]

与上述任务不同,CoarsePoint不需要精确的点标注,这大大减少了标注时间。CoarsePoint的期望只在于在不需要大量人力的情况下对物体进行定位,不需要像上述任务那样非常精确的定位效果。因此,如果该点落入相应的边界框内,则认为该物体已成功定位。

1.3 人群计数

人群计数侧重于当前场景中的人数而不是人类目标的位置。在人群计数中,利用精确的头部标注作为监督点,由头部标注生成的人群密度图作为网络的优化目标。更重要的是,CoarsePoint只关注人体的粗略位置,对标注点精度要求相对较低。

2 方法

考虑到语义中心的统计稳定性,在自优化过程中使用目标的语义中心代替粗略的点标注。算法框架如图 3所示。首先,在训练集上使用粗点监督训练估计器。然后,将该估计器用于预测训练集中每幅图像上的语义统计点(semantic statistic points,SSPs)的位置。最后,为减少粗点的不确定性,选择每个对象SSPs位置的中心作为优化的点标注。为简化描述,本文中的公式仅用于定位一个类别的物体。在多个类别的情况下,目标定位被视为一个类别目标定位的多个任务。

Download:
图 3 自优化算法框架 Fig. 3 The pipeline of the self-refinement algorithm
2.1 点估计

训练图像集定义为$\boldsymbol{I}=\left\{\boldsymbol{I}_{1}, \boldsymbol{I}_{2}, \cdots, \boldsymbol{I}_{N}\right\}$,粗点集定义为$\boldsymbol{A}=\left\{\boldsymbol{A}_{1}, \boldsymbol{A}_{2}, \cdots, \boldsymbol{A}_{N}\right\}$,其中$N$是图像的数量。$\boldsymbol{A}_{i}=\left\{\boldsymbol{a}_{i 1}, \boldsymbol{a}_{i 2}, \cdots, \boldsymbol{a}_{i M_{i}}\right\}, \boldsymbol{a}_{i j}=(x, y)$是第$j$个物体粗略标注点的二维坐标,$M_{i}$是图像$\boldsymbol{I}_{i}$中的目标数。I中所有图像的所有点的集合定义为$\mathit{\pmb{\Omega}}=\left\{\boldsymbol{\omega}_{1}, \boldsymbol{\omega}_{2}, \cdots, \boldsymbol{\omega}_{h}, \cdots\right\}$。一个点$\boldsymbol{\omega}_{h}$是否被标注用$l_{h}$表示,$l_{h}=1$表示$\boldsymbol{\omega}_{h}$被标注,$l_{h}=0$表示$\boldsymbol{\omega}_{h}$未被标注。相应地,标注集可以表示为$\boldsymbol{L}=\left\{l_{1}\right.$$\left.l_{2}, \cdots, l_{h}, \cdots\right\}$

从语义的角度来看,目标可以分为几个语义部分(例如人体可以分为头部、手部、腿部等)。$T$表示分割的语义部分的数量,$S_{t}(t=1, 2, \cdots, T)$表示$\boldsymbol{I}$中所有类别目标的第$t$部分的点集。$\boldsymbol{S}_{0}$是不包含在$\boldsymbol{I}$中类别目标的任何部分的点集。所有这些点集构成$\boldsymbol{S}=\left\{\boldsymbol{S}_{0}, \boldsymbol{S}_{1}, \boldsymbol{S}_{2}, \cdots, \boldsymbol{S}_{T}\right\}, \underset{0 \leqslant t \leqslant T}{U} \boldsymbol{S}_{t}=\mathit{\pmb{\Omega}}$$\boldsymbol{S}_{i} \cap \boldsymbol{S}_{j}=\varnothing$,如果$i \neq j$

$\boldsymbol{S}_{t}$中的标注点集表示为$\boldsymbol{S}_{t}^{+}$,语义部分$\boldsymbol{S}_{t}$的标注频率定义为$Q\left(\boldsymbol S_{t}\right)$

$ \begin{gather*} \boldsymbol{S}_{t}^{+}=\left\{\boldsymbol{\omega}_{h} \mid l_{h}=1, \boldsymbol{\omega}_{h} \in \boldsymbol{S}_{t}\right\}, \\ Q\left(\boldsymbol{S}_{t}\right)=P\left\{l_{h}=1 \left\lvert\, \boldsymbol{\omega}_{h} \in \boldsymbol{S}_{t}=\frac{\left|\boldsymbol{S}_{t}^{+}\right|}{\left|\boldsymbol{S}_{t}\right|}\right., \right. \end{gather*} $ (1)

其中:$\left|\boldsymbol{S}_{t}^{+}\right|, \left|\boldsymbol{S}_{t}\right|$表示$\boldsymbol{S}_{t}^{+}, \boldsymbol{S}_{t}$中的元素个数。

L的监督下训练估计器E(ω; θ)的目标函数用等式定义

$ \begin{gather*} \operatorname{loss}(\theta ;\mathit{\pmb{\Omega}}, \boldsymbol{L})= \\ \frac{1}{|\mathit\Omega|} \sum\limits_{S_{t} \in S} \sum\limits_{\boldsymbol{\omega}_{h} \in S_{t}} \operatorname{FL}\left(E\left(\boldsymbol{\omega}_{h} ; \theta\right), Q\left(\boldsymbol{S}_{t}\right)\right), \end{gather*} $ (2)

其中FL是焦点损失,等式(2)的推导细节可由θ*等式定义

$ \theta^*=\underset{\theta}{\operatorname{argmin}} \operatorname{loss}(\theta ; \mathit{\pmb{\Omega}}, \boldsymbol{L}), $ (3)

为了分解等式(2),使用隐藏的$\boldsymbol{S L}_{t}(t=1, 2$$\cdots, T)$表示$\boldsymbol{I}$中所有这些物体类别的第$t$部分的点和标注对的集合。所有这些对集构成$\boldsymbol {S L}=\left\{\boldsymbol {S L}_{0}\right.$$\left.\boldsymbol{S L}_{1}, \boldsymbol{S L}_{2}, \cdots, \boldsymbol{S L}_{T}\right\}$$\boldsymbol{S L}_{t}^{-}$是那些在$\boldsymbol{S L}_{t}$中没有标注的点集,定义如下

$ \begin{align*} & \boldsymbol{S L}_{t}^{-}=\left\{\left(f_{h}, \boldsymbol{\omega}_{h}, l_{h}\right) \mid l_{h}=0, \left(f_{h}, \boldsymbol{\omega}_{h}, l_{h}\right) \in \boldsymbol{S L}_{t}\right\}, \\ & \boldsymbol{S L}_{t}^{+}=\left\{\left(f_{h}, \boldsymbol{\omega}_{h}, l_{h}\right) \mid l_{h}=1, \left(f_{h}, \boldsymbol{\omega}_{h}, l_{h}\right) \in \boldsymbol{S L}_{t}\right\}, \end{align*} $ (4)

其中: $f_{h}$表示点$\boldsymbol{\omega}_{h}$的特征。那么$\operatorname{loss}(\theta ; \mathit{\pmb{\Omega}}, \boldsymbol{L})$,或者$\operatorname{loss}(\theta ; \boldsymbol{S L})$,可以由下面的公式推导出

$ \begin{aligned} \operatorname{loss}( & \theta ; \boldsymbol{S} \boldsymbol{L})=\frac{1}{|\mathit{\pmb{\Omega}}|} \sum\nolimits_{\left(f_h, \boldsymbol{\omega}_h, l_h\right) \in \boldsymbol{S L}} C E\left(E\left(f_h ; \theta\right), l_h\right) \\ = & -\frac{1}{|\mathit{\pmb{\Omega}}|} \sum\nolimits_{\left(f_h, \boldsymbol{\omega}_h, l_h\right) \in \boldsymbol{S L}}\left[l_h \times \log \left(E\left(f_h ; \theta\right)\right)+\right. \\ & \left.\left(1-l_h\right) \times \log \left(1-E\left(f_h ; \theta\right)\right)\right] \\ = & -\frac{1}{|\mathit{\pmb{\Omega}}|} \sum\nolimits_{\boldsymbol S_t \in \boldsymbol S}\left[\sum\nolimits_{\left(f_h, \boldsymbol{\omega}_h, l_h\right) \in \boldsymbol{SL} _t^{+}} \log \left(E\left(f_h ; \theta\right)\right)+\right. \\ & \left.\sum\nolimits_{\left(f_h, \boldsymbol{\omega}_h, l_h\right) \in \boldsymbol{SL} _t^{-}} \log \left(1-E^k\left(f_h ; \theta\right)\right)\right] \\ = & -\sum\nolimits_{\boldsymbol S_t \in \boldsymbol S} \frac{\left|\boldsymbol{S}_t\right|}{|\mathit\Omega|}\left[Q\left(\boldsymbol S_t\right) \log \left(E\left(f_h ; \theta\right)\right)+\right. \\ & \left.\left(1-Q\left(\boldsymbol S_t\right)\right) \log \left(1-E^k\left(f_h ; \theta\right)\right)\right] \\ = & \sum\nolimits_{\boldsymbol S_t \in \boldsymbol S} \frac{\left|\boldsymbol{S} \boldsymbol{L}_t\right|}{|\mathit\Omega|} \operatorname{CE}\left(E\left(f_h ; \theta\right), Q\left(\boldsymbol S_t\right)\right) . \end{aligned} $ (5)

对于$\boldsymbol{S}_{t}$中的一个点$\boldsymbol{\omega}_{h}$,学习目标是使估计量$E\left(\boldsymbol{\omega}_{h} ; \theta\right)$和概率$Q\left(\boldsymbol{S}_{t}\right)$之间的距离最小化(而不是硬监督,0或1)。为达到$E\left(a ; \theta^{*}\right)$预测的高分,有2个约束条件:1)高$\left.Q\left(\boldsymbol{S}_{t}\right) ; 2\right) \boldsymbol{S}_{t}$在语义上可与其他类别和背景$\left(\boldsymbol{S}_{0}\right)$的点区分开来。例如SSPs。

在第$k$次迭代中,在$\boldsymbol{A}^{k}$的监督下,用图像$\boldsymbol{I}_{i}$和在$\boldsymbol{I}$中训练的估计器$E^{k}(\omega ; \theta)$,可以得到估计的SSPs:

$ \begin{equation*} \hat{\boldsymbol{A}}_{i}^{k}=\left\{\omega_{h} \mid E^{k}\left(\boldsymbol{\omega}_{h} ; \theta^{*}\right)>\delta, \boldsymbol{\omega}_{h} \in \boldsymbol{I}_{i}\right\}, \end{equation*} $ (6)

其中:δ是范围为0~1的阈值。在实验中,δ设为0.2。

2.2 点优化

估计的语义点$\hat{\boldsymbol{A}}_{i}^{k}$可能来自图像$\boldsymbol{I}_{i}$中的不同目标。它们被分配给$\boldsymbol{I}_{i}$中的第$j$个目标,记为$\boldsymbol{G}_{i j}$

$ \begin{gathered} \boldsymbol{G}_{i j}=\left\{\boldsymbol{a} \mid \boldsymbol{a} \in \hat{\boldsymbol{A}}_i^k, \operatorname{dis}\left(\boldsymbol{a}, \boldsymbol{a}_{i j}\right) \leqslant \operatorname{dis}\left(\boldsymbol{a}, \boldsymbol{a}_{i j^{\prime}}\right),\right. \\ \left.\forall j^{\prime}, 1 \leqslant j^{\prime} \leqslant M_i\right\}, \end{gathered} $ (7)

其中dis是两点之间的欧式距离。

图 4所示,在合并过程中,Gij中根据预测分数排名的前K个点将被保留。为得到图像Ii中第j个物体的最终优化点标注,以分数为权重,重新计算Gij′中剩余点的平均值。

$ \boldsymbol{a}_{i j}^{k+1}= \begin{cases}\frac{\sum\limits_{a \in G_{i j}^{\prime}} \boldsymbol{a} \cdot \text { score }_{a}}{\sum\limits_{a^{\prime} \in G_{i j}^{\prime}} \text { score }_{a^{\prime}}}, & \boldsymbol{G}_{i j}^{\prime} \neq \varnothing, \\ \boldsymbol{a}_{i j}^{k}, & G_{i j}^{\prime}=\varnothing, \end{cases} $ (8)
Download:
图 4 后处理框架 Fig. 4 The post-processing framework

其中: $\operatorname{score}_{\boldsymbol{a}}$表示检测点$\boldsymbol{a}$的得分,$\boldsymbol{G}_{i j}^{\prime}=\{\boldsymbol{a} \mid \boldsymbol{a} \in$ $\left.\boldsymbol{G}_{i j}, \operatorname{dis}\left(\boldsymbol{a}, \boldsymbol{a}_{i j}\right)<r\right\}$。在本文中超参数r被设置为16。

算法1  自优化过程
Input: Training image I
Input: Annotated Points A
Output: Refined Points A
    1: k=0, A0=A
    2: repeat
    3: Train an estimator $E^{k}$ on $\boldsymbol{I}$ with $\boldsymbol{A}^{k}$ as label,obtain $E^{k}\left(\omega ; \theta^{*}\right)$,Eqs. (2) and (3)
    4:   for each image Ii in I do
    5:     Inference on $\boldsymbol{I}_{i}$ with $E^{k}\left(\omega ; \theta^{*}\right)$,obtain $\hat{\boldsymbol{A}}_{i}^{k}$,Eq.(6)
    6:     Assign points in $\hat{\boldsymbol{A}}_{i}^{k}$ to $j$ objects,obtain $\boldsymbol{G}_{i j}$,Eq.(7)
    7:     for each points group Gij do
  8:       Merge $\boldsymbol{G}_{i j}$ to obtain $\boldsymbol{a}_{i j}^{k+1}$,Eq.(8)
    9:     end for
    10: end for
    11: k=k+1
    12: until k==MAXITER or Ak = = Ak-1
    13:A′=Ak

3 实验 3.1 数据集

为了更客观地验证本文所提出的方法,基于TinyPerson[11]和VisDrone[35]的一个子集进行实验性能分析和比较。

TinyPerson是从高质量视频和图片中收集的一个微小物体检测数据集。它包含1 610张图像中的72 651个带标注的低分辨率人体目标,TinyPerson中大部分的标注目标小于32像素×32像素。在训练和推理阶段,从原始图像中剪切出子图作为输入。为避免剪裁造成的目标不完整,相邻子图之间存在一个固定的重叠区域。然后,利用非极大值抑制来合并同一图像中相同的检测结果。

作为一个由无人机拍摄的大规模数据集,Visdrone包含4个任务:1)图像目标检测;2)视频目标检测;3)单目标跟踪;4)多目标跟踪。本文的实验是在Visdrone的图像目标检测任务上进行的。考虑到定位的应用场景,我们主要关注尺寸相对较小的物体。因此,使用包含人类的图像构建新的人体检测数据集Visdrone-Person,该数据集仅采用行人和人类的标签。Visdrone-Person包含10 209张图像,其中6 471张用于训练,548张用于验证,3 190张用于测试。采用与TinyPerson相同的切割策略来获得具有适当大小的子图。

3.2 点标注初始化

通过均匀分布或在边界框(xc, yc, w, h)内利用截断高斯分布得到一个点(x, y)生成点标注。

假设人标注目标时候没有任何偏好,那么点落在目标中的位置将服从均匀分布。

大多数情况下,人工标注确实存在偏好(例如,主要在头部或身体上)。根据大数定理,假设人的标注符合高斯分布。使用高斯模型给标注点的位置分布进行建模有2个问题:第一是如何确定高斯分布的方差;第二是标注点的位置范围是有界的([-0.5, 0.5]),而高斯分布是无界的。因此,采用截断高斯分布(rectified gaussian,RG)(RG(x′, y′; μ, σ))解决这些问题。

在本文中,大多数实验的标注点来自均匀分布和$\operatorname{RG}\left(x^{\prime}, y^{\prime} ; 0, 1 / 4\right), \operatorname{RG}\left(x^{\prime}, y^{\prime} ;-0.26, 1 / 8\right)$$\operatorname{RG}\left(x^{\prime}, y^{\prime} ;-0.28, 1 / 6\right), \operatorname{RG}\left(x^{\prime}, y^{\prime} ;-0.31\right.$$1 / 5), \operatorname{RG}\left(x^{\prime}, y^{\prime} ;-0.38, 1 / 4\right)$,均值-0.25,用于消融实验。

3.3 RG分布

首先,对于高斯分布的概率密度函数$\mathrm{G}(x, y$$\mu, \sigma), \mu=0$。当从高斯分布中采样,目标落在[-0.5,0.5]之外的物理含义可以理解为,人在给目标标注点的时候,有一定概率会把点标注在目标外面,这个概率往往会比较小。根据$2 \delta$定律和$3 \delta$定律,一般认为按照高斯分布采样点落在$[\mu-2 \sigma, \mu+2 \sigma]=[-2 \sigma, 2 \sigma]$或者$[\mu-3 \sigma, \mu$ $+3 \sigma]=[-3 \sigma, 3 \sigma]$是小概率事件(分别为$4.56 \%$$0.26 \%$),因此假设人在标注时标注的点落在目标的边界框外的概率$P\{|x|>0.5\}=P\{|x|>$ $\sigma \times r\}$,这里$r=2$或3,取决于标注人的标注准确度。方差确定为$\sigma=1 /(2 r)=1 / 4, 1 / 6$

其次,回顾一下人工标注过程。当标注落在框的外面时,人往往能比较容易发现这一点,此时应当擦除这个错误标注而重新进行标注直到标注点落在目标框内。为简化问题,假设标注点的位置依旧符合同一高斯分布。单次标注落在目标框外的概率$t=1-\int_{-0.5}^{0.5} \int_{-0.5}^{0.5} \mathrm{G}(x, y ; \mu, \sigma) \mathrm{d} x \mathrm{~d} y$。将最终标注点分布的概率密度函数命名为RG分布$(\operatorname{RG}(x, y ; \mu, \sigma))$。对于$|x| \leqslant 0.5$$|y| \leqslant 0.5$,RG分布可以推导如下

$ \begin{aligned} \mathrm{RG}(x, y ; \mu, \sigma)= & \mathrm{G}(x, y ; \mu, \sigma)+t \cdot \mathrm{G}(x, y ; \mu, \sigma)+ \\ & \cdots+t^n \cdot \mathrm{G}(x, y ; \mu, \sigma)+\cdots \\ = & \mathrm{G}(x, y ; \mu, \sigma) \cdot \lim _{n->\infty} \frac{\left(1-t^n\right)}{1-t} \\ = & \mathrm{G}(x, y ; \mu, \sigma) /(1-t) \\ = & \frac{\mathrm{G}(x, y ; \mu, \sigma)}{\int_{-0.5}^{0.5} \int_{-0.5}^{0.5} \mathrm{G}(x, y ; \mu, \sigma) \mathrm{d} x \mathrm{~d} y}, \end{aligned} $ (9)

否则,$|x|>0.5$$|y|>0.5, \operatorname{RG}(x, y ; \mu, \sigma)=$ 0。因此,当生成点标注时,采用以$[0.5, 0.5]$为界的RG分布。(对于RG $(x, y ; \mu, \sigma), \mu 、\sigma^{2}$不再是均值和方差。

3.4 实验细节

作为基准模型,RepPoints[36]适用于粗略点监督目标定位。这个综合性框架由一个估计器和一个定位器组成。为确保训练中正负样本的比例合适,在分配标签时将标记点周围的一些点视为正样本。网络输出每个点的分类结果和位置偏移量。在实践中,将输入点简单地视为一个以输入点为中心,具有固定长度和宽度的伪框。在自我优化过程中,将伪框视为监督来训练估计器得到截断后的伪框,再将其馈送到定位器中。最终,由定位器产生的预测边界框转换为评估中的定位点。

ResNet-50作为主干网络。训练时的epoch设置为12。初始学习率为0.01,在第8个和第11个epoch时以0.1的系数下降。选择使用FPN(feature pyramid network)的Faster RCNN和Sparse RCNN[37]比较。

采用平均精度(average precision, AP)作为度量标准。根据边界框的大小,将尺度间隔分为微小[2, 20), 小[20,32),正常[32, +∞),所有[2, +∞)。如表 1所示,基于不同初始分布,展示出了VisDrone-Person上的AP1.0all

表 1 VisDrone-Person上的AP1.0all Table 1 AP1.0all on VisDrone-Person

在点评估中使用点框距离作为评估标准,而不是IoU。特别地,点$\boldsymbol{a}=(x, y)$和框$\boldsymbol{b}=\left(x^{c}, y^{c}\right.$$w, h)$之间的距离$d$定义为

$ d(\boldsymbol{a}, \boldsymbol{b})=\sqrt{\left(\frac{x-x^c}{w}\right)^2+\left(\frac{y-y^c}{h}\right)^2}, $ (10)

其中:(xc, yc)、wh分别是中心点、边界框的宽和高。如果距离d小于预定义的阈值τ,则点和目标的边界框匹配。阈值τ设置为1。这意味着只要预测点落在未匹配的真实框内,该点就匹配成功。图 5以热图形式展示了目标边界框中点的分布。

Download:
图 5 目标边界框中点分布的热图 Fig. 5 Heatmaps of the point distribution in an object's bounding box
3.5 实验分析

第2节已经提到过,标注语义的不确定性会限制模型的性能。为了定量分析这种不确定性,收集每次迭代后生成的细化标注点在真实框里的相对位置(x′, y′)。分布定义为方程

$ \begin{aligned} & \quad P\left(x^{\prime}, y^{\prime} ; \boldsymbol A^k\right)= \\ & \frac{\text { number of instances annotated on }\left(x^{\prime}, y^{\prime}\right)}{\text { number of instances }} \end{aligned} $ (11)

其中:|x′|≤0.5, |y′|≤0.5。

图 5所示,在优化之后,分布的方差减小,导致标注不确定性减少,缓解了模型混乱。在图 5的底部,值得注意的是,由于分布方差小,初始标注集中在较弱的语义区域,例如人的左上角,所提出的方法可以将标注优化到具有强语义信息的邻近区域,例如人的头部。

图 6显示自优化显著减少了假正例的数量,从而提高了网络的判别能力。

Download:
图 6 估计器E在不同迭代期间对不同数据集的结果的可视化(召回率设为0.5) Fig. 6 The visualization of the estimator E's results on different datasets during different iterations (Recall was set to 0.5)

表 2所示,RepPoints作为估计器和定位器进行实验。real box是指训练时使用精确边界框标注作为监督信息,采用框的中心点进行评估。Box center表示在训练时使用(xc, yc)作为粗略的点标注,它是原始边界框标注的中心。对于box head, box foot, box corner, 采用(xc, yc-h/4), (xc, yc+h/4), (xc-w/4), (yc-h/4)分别作为点标注。在均匀分布下,以RepPoints作为估计器和定位器进行了实验,得到基于点标注在VisDrone-Person中的性能如表 3所示。

表 2 性能上界分析 Table 2 Upper bound analysis

表 3 基于点标注在VisDrone-Person中的性能 Table 3 Performance in VisDrone-Person based on point
3.6 消融实验

表 4所示,将估计器简化为Est,定位器简化为Loc在VisDrone-Person上进行不同定位器AP比较的实验,其中RP代表RepPoints,SR代表Sparse RCNN,—代表无自我更新策略。自优化在RP+RP情况下将AP1.0all和AP1.0normal分别提高8.82和42.9。同时,在RP+SR条件下AP1.0all和AP1.0normal分别提高13.2和24.2。

表 4 VisDrone-Person基于不同定位器的AP结果比较 Table 4 Comparisons of APs with different locators on VisDrone-Person

表 5所示,在TinyPerson上进行AP的比较。即使使用不同的估计器,自优化在FR+FR条件下仍可以将AP1.0all提高20.27,将AP1.0small提高32.28。我们的自优化算法兼容不同的框架。当使用不同检测器用作估计器或定位器时,各种尺度下的性能几乎都得到了提高。

表 5 在TinyPerson上不同估计器的AP结果比较 Table 5 Comparisons of APs with different estimators on TinyPerson

表 4表 5所示,自优化的性能在VisDrone-Person和TinyPerson上分别提高8.2和20.3。

表 6中的实验是以Faster RCNN作为估计器和定位器进行的,结果显示,随着迭代次数的增加,性能显著提高。在初始伪框尺寸设置为8×8、16×16和32×32像素的情况下,AP1.0all分别提高30.6、16.87和7.33。换句话说,迭代次数越多,性能提升的速度就越慢。

表 6 TinyPerson的定位结果 Table 6 The localization results of TinyPerson

表 6描述不同初始伪框大小的影响。将伪框尺寸从8像素×8像素增加到32像素×32像素表明,更大的伪框尺寸可以获得更好的性能。然而,通过更多迭代进行自优化可以推动性能提升。

表 1所示,结果显示生成点的初始分布会影响性能。人工标注更符合RG分布的特征。当遇到更加粗糙的标注时,自优化带来的改进更大。此外,通过自优化,性能变得相对稳定并且对初始标注分布不敏感。

3.7 标注效率

为定量比较上面提到的标注效率,从TinyPerson和VisDrone-Person中随机选择一些不同场景的图像,有1 021个对象,并选择9个人进行手动标注测试。为避免受标注顺序的影响,测试者被随机分为3组。按照粗略点、精确点、边界框的顺序,选择任意一组对这些图像进行标注。另一组按照精确点、粗略点、边界框的顺序。第3组按照边界框、精确点、粗略点的顺序。最后,计算不同标注方式下单个目标的平均标注时间,结果如表 7所示。

表 7 标注效率比较 Table 7 Annotation efficiency

对于在大尺度图像中查找小目标等任务来说,紧密边界框的标注是非常耗时的。粗标注点的标注非常高效,只需要在目标上点击即可。在这种标注方式下,我们提出的自优化算法仍然可以实现出色的定位性能,同时节省高达80%的标注时间。

4 总结

目标定位是计算机视觉领域的中的重要问题。本文提出CoarsePoint这一新的视觉任务,用于目标定位,采用粗标注点作为监督信息,为该领域提供了第一个可靠的基准方法。此外,提出自优化方法,通过迭代地提升粗标注点,实现了监督信号的统计稳定性,并以自适应的方式改进定位模型。CoarsePoint实现了与基于精确边界框标注的方法相当的实验结果,并节省高达80%的标注成本。

参考文献
[1]
Enzweiler M, Gavrila D M. Monocular pedestrian detection: survey and experiments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2179-2195. Doi:10.1109/TPAMI.2008.260
[2]
Dollár P, Wojek C, Schiele B, et al. Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761. Doi:10.1109/TPAMI.2011.155
[3]
Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. June 16-21, 2012, Providence, RI, USA. IEEE, 2012: 3354-3361. DOI: 10.1109/CVPR.2012.6248074.
[4]
Zhang S S, Benenson R, Schiele B. CityPersons: a diverse dataset for pedestrian detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 4457-4465. DOI: 10.1109/CVPR.2017.474.
[5]
Mao J Y, Xiao T T, Jiang Y N, et al. What can help pedestrian detection?[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 6034-6043. DOI: 10.1109/CVPR.2017.639.
[6]
Havyarimana V, Xiao Z, Sibomana A, et al. A fusion framework based on sparse Gaussian-wigner prediction for vehicle localization using GDOP of GPS satellites[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(2): 680-689. Doi:10.1109/TITS.2019.2891585
[7]
Yin H, Wang Y, Ding X Q, et al. 3D LiDAR-based global localization using Siamese neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(4): 1380-1392. Doi:10.1109/TITS.2019.2905046
[8]
Choi S, Kim J H. Leveraging localization accuracy with off-centered GPS[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(6): 2277-2286. Doi:10.1109/TITS.2019.2915108
[9]
Akilan T, Jonathan Wu Q M. sEnDec: an improved image to image CNN for foreground localization[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(10): 4435-4443. Doi:10.1109/TITS.2019.2940547
[10]
Zhang S S, Benenson R, Omran M, et al. Towards reaching human performance in pedestrian detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 973-986. Doi:10.1109/TPAMI.2017.2700460
[11]
Yu X H, Gong Y Q, Jiang N, et al. Scale match for tiny person detection[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). March 1-5, 2020, Snowmass, CO, USA. IEEE, 2020: 1246-1254. DOI: 10.1109/WACV45572.2020.9093394.
[12]
Xia G S, Bai X, Ding J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 3974-3983. DOI: 10.1109/CVPR.2018.00418.
[13]
Han B, Wang Y H, Yang Z, et al. Small-scale pedestrian detection based on deep neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(7): 3046-3055. Doi:10.1109/TITS.2019.2923752
[14]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. Doi:10.1109/TPAMI.2016.2577031
[15]
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 936-944. DOI: 10.1109/CVPR.2017.106.
[16]
Zhou X Y, Wang D Q, Krähenbühl P. Objects as points[EB/OL]. 2019. arXiv: 1904.07850. (2019-04-16)[2023-02-22]. https://arxiv.org/abs/1904.07850.
[17]
Ye T, Zhang X, Zhang Y, et al. Railway traffic object detection using differential feature fusion convolution neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(3): 1375-1387. Doi:10.1109/TITS.2020.2969993
[18]
Hassaballah M, Kenk M A, Muhammad K, et al. Vehicle detection and tracking in adverse weather using a deep learning framework[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(7): 4230-4242. Doi:10.1109/TITS.2020.3014013
[19]
Yang P Y, Zhang G F, Wang L, et al. A part-aware multi-scale fully convolutional network for pedestrian detection[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(2): 1125-1137. Doi:10.1109/TITS.2019.2963700
[20]
Camara F, Bellotto N, Cosar S, et al. Pedestrian models for autonomous driving part Ⅰ: low-level models, from sensing to tracking[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(10): 6131-6151. Doi:10.1109/TITS.2020.3006768
[21]
Camara F, Bellotto N, Cosar S, et al. Pedestrian models for autonomous driving part Ⅱ: high-level models of human behavior[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(9): 5453-5472. Doi:10.1109/TITS.2020.3006767
[22]
Baek J, Hyun J, Kim E. A pedestrian detection system accelerated by kernelized proposals[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(3): 1216-1228. Doi:10.1109/TITS.2019.2904836
[23]
Bilen H, Pedersoli M, Tuytelaars T. Weakly supervised object detection with convex clustering[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 7-12, 2015, Boston, MA, USA. IEEE, 2015: 1081-1089. DOI: 10.1109/CVPR.2015.7298711.
[24]
Bilen H, Vedaldi A. Weakly supervised deep detection networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 2846-2854. DOI: 10.1109/CVPR.2016.311.
[25]
Song H O, Girshick R, Jegelka S, et al. On learning to localize objects with minimal supervision[C]//International Conference on Machine Learning. PMLR, 2014: 1611-1619. https://proceedings.mlr.press/v32/songb14.html.
[26]
Siva P, Xiang T. Weakly supervised object detector learning with model drift detection[C]//2011 International Conference on Computer Vision. November 6-13, 2011, Barcelona, Spain. IEEE, 2012: 343-350. DOI: 10.1109/ICCV.2011.6126261.
[27]
Wang C, Huang K Q, Ren W Q, et al. Large-scale weakly supervised object localization via latent category learning[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2015, 24(4): 1371-1385. Doi:10.1109/TIP.2015.2396361
[28]
Zhou B L, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 2921-2929. DOI: 10.1109/CVPR.2016.319.
[29]
Deselaers T, Alexe B, Ferrari V. Weakly supervised localization and learning with generic knowledge[J]. International Journal of Computer Vision, 2012, 100(3): 275-293. Doi:10.1007/s11263-012-0538-3
[30]
Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//European Conference on Computer Vision. Cham: Springer, 2014: 740-755.10.1007/978-3-319-10602-1_48.
[31]
Ionescu C, Papava D, Olaru V, et al. Human3.6M: large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1325-1339. Doi:10.1109/TPAMI.2013.248
[32]
Papadopoulos D P, Uijlings J R R, Keller F, et al. Training object class detectors with click supervision[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 180-189. DOI: 10.1109/CVPR.2017.27.
[33]
Ribera J, Güera D, Chen Y H, et al. Locating objects without bounding boxes[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 6472-6482. DOI: 10.1109/CVPR.2019.00664.
[34]
Choe J, Oh S J, Lee S, et al. Evaluating weakly supervised object localization methods right[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 3130-3139. DOI: 10.1109/CVPR42600.2020.00320.
[35]
Zhu P F, Wen L Y, Bian X, et al. Vision meets drones: a challenge[EB/OL]. 2018. arXiv: 1804.07437. (2018-04-28)[2023-02-22]. https://arxiv.org/abs/1804.07437.
[36]
Yang Z, Liu S H, Hu H, et al. RepPoints: point set representation for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). October 27-November 2, 2019, Seoul, Korea (South). IEEE, 2020: 9656-9665. DOI: 10.1109/ICCV.2019.00975.
[37]
Sun P Z, Zhang R F, Jiang Y, et al. Sparse R-CNN: end-to-end object detection with learnable proposals[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 14449-14458. DOI: 10.1109/CVPR46437.2021.01422.