介绍
这是郑老师的另一片文章, 发表于 13 年. 论文中探索了一种新的 Person Re-id 的场景: gallery set 中有大量与跟踪目标无关的 imposters, 只需要对给定的 target probe set 中的对象进行识别, 同时希望将跟踪目标从 gallery set 中区分开来. 通常 target probe set 中的每一个人只对应一张图片, 这在一些极端条件下是完全可能的, 比如说视频帧率很低, 或者由于存在遮挡, 跟踪目标只在一帧中出现. 这种场景被称为 One-shot Open-World Group-based Person Re-id, 如下图所示
本文着眼于 metric learning, 即在给定特征的情况下寻找最合适的距离度量方法, 所采用的距离函数形式为
\[d(\mathbf{x}, \mathbf{x}')=(\mathbf{x-x'})^T \mathbf{M(x-x')}.\]需要学习矩阵 \(\mathbf{M}\). 实际场景通常是这样: imposters 的 matching pairs 是容易获取的, 然而并不是我们希望跟踪的目标, watch list 中对象的数据是很少的. 如何克服这一问题, 充分利用 imposters 的信息呢? 论文提出的模型成为 transfer local relative distance comparison (t-LRDC), 着眼于通过迁移学习的方法来充分提取 source set 中的信息. 所谓迁移学习即把 source set 中训练的得到的模型迁移到 target set 中, 一般 source set 和 target set 具有不同的数据分布, source set 中数据量较大或者容易获取而 target set 数据很少.
Relative distance comparison (RDC) 来自于 Reidentification by Relative Distance Comparison 这篇论文, 也是郑老师的文章, 所不同的是, 考虑到运算复杂度, 这里使用 local relative distance comparison. RDC 比较类间距离和类内距离, 强制类间距离大于类内距离来获得矩阵 \( \mathbf{M} \).
t-LRDC
One-shot Open-World Group-based Person Re-id 的一个挑战在于跟踪目标的同类 (同一个人) 的数据太少 (通常为 1 个), 难以学习到具有鲁棒性的距离表示.
为了应对这一问题, 论文的一个基本假设是, 每一个 target set 中的人, 总能在 non-target set 中找到与之相似的, 因此就可以通过在 non-target set 中的标记信息来估计类内距离. 即
\[\begin{aligned} \text{if} & \quad \mathbf{x}_\text{s}\sim \mathbf{x}_\text{t} \\ \text{then} & \quad P(\Delta_s|\mathbf{x}_\text{s}, \Omega) \approx P(\Delta_{\text{t}|}|\mathbf{x}_\text{t}, \Omega). \end{aligned}\]文中使用余弦相似度来量化 feature 的相似程度.
直接优化以上三个目标是困难的 (二次函数的复杂度), 因此论文中只对 local neighbourhood 进行优化.
Group-based Verification
论文中提到的 group-based veritification 指的是什么呢? 其实现实中我们可能并不需要将 querry image 识别为一个具体的人, 而只需要判断他是否属于某一个特定的集合, 这就是所谓的 group-based verification, 比如说, 我们只是判断一个人是否属于跟踪目标即可. 与之相对的 individual-based veritification 可以看成是它的一种特例.
总结
- 论文定义了一种新的 Person Re-id 场景, 即 One-shot Open-World Group-based Person Re-id
- 论文使用 transfer learning 的方法来利用 imposters 信息, 解决 target set 数据不足的问题
- 论文使用降维, 计算 neighbourhood 的方法减少计算量