专利 一种基于多尺度特征融合的视频行人重识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111635259.X (22)申请日 2021.12.2 9 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人艾明晶　刘鹏高　 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多尺度特征融合的视频行人重识别方法 (57)摘要本发明是一种基于多尺度特征融合的视频行人重识别方法，针对传统方法在对复杂的表观特征进行时序融合时效果不佳的问题，提出了一种基于多尺度特征融合的视频行人重识别网络模型。该模型在骨干网络的末端引出三个分支：全局特征分支、局部特征分支和时序注意力分支，分别提取不同尺度的图像级重识别特征和时序注意力权重，将不同尺度的重识别特征向量进行拼接并依据时序注意力权重进行融合，最后通过多特征独立训练策略，实现了准确的行人重识别，并通过对比实验对网络的结构化参数如局部特征数量、局部特征尺寸以及Bottleneck数量进行了优化。实验证明，本发明的mAP和rank ‑1指标在Mars数据集上分别达到了 78.7％和85.1 ％，优于现有大多数方法。权利要求书2页说明书7页附图2页 CN 114299542 A 2022.04.08 CN 114299542 A 1.一种基于多尺度特征融合的视频行人重识别方法，其特征在于：针对传统方法在对复杂的表观特征进行时序融合时效果不佳的问题，提出一种基于多尺度特征融合的视频行人重识别网络模型，该模型在骨干网络的末端引出三个分支，分别提取不同尺度的图像级重识别特征和时序注意力权重，将不同尺度的重识别特征向量进行拼接并依据时序注意力权重进行融合，最后通过多特征独立训练策略，实现了准确的行人重识别，并且通过对比实验对网络的结构化参数进行了优化；具体包括如下步骤：步骤1、基于多尺度融合的视频行人重识别网络设计所设计的基于多尺度特征融合的视频行人重识别网络模型由一个共享骨干网络和三个分支组成，三个分支为全局特征分支、局部特征分支和时序注意力分支；共享骨干网络在Resnet50 网络的的基础上取消了最后一层残差结构中的下采样操作，使得输出的特征图尺寸扩大为原来的二倍，从而为局部特征的提取提供了更充分的划分空间；从骨干网络末端得到的特征图上引出三条支路，分别用于提取全局特征、局部特征以及时序信息；在全局特征分支上，特征图经过一次卷积、归一化和池化操作后生成一组2048 维的全局特征向量；在局部特征分支上，特征图经过Bottleneck解耦后以PCB ‑RPP算法即局部卷积与精修池化算法进行软划分，生成一组2048维的局部特征向量，其中两个局部特征各占1024 维；在时序注意力分支上，特征图先后经过时域卷积和空域卷积，生成输入图片序列长度的时序注意力得分，得到时序融合所需要的时序权重；将网络全局特征分支与局部特征分支得到的每一帧的全局特征向量与局部特征向量进行拼接，生成4096维的单帧融合特征；再依据时序注意力分支得到的不同帧的时序注意得分进行加权平均，得到最终的4096维的视频级行人重识别特征向量；步骤2、多特征独立训练策略设计由于网络模型最终生成的特征向量由多个特征向量拼接融合而成，为保证多特征的训练效果，应针对融合后的特征向量进行划分并单独训练；分类器设计：训练阶段，为模型输出的经时序融合的特征向量中每一个拼接部分单独设置一个分类器，即对每个尺度的特征单独训练、分类器参数不共享；其中，分类器为神经网络的全连接层；损失函数：对于每一个尺度的特征，其训练用的损失函数由两部分组成，如式(1)所示； Lossi＝Losscrossentropy+Losstriplet (1) 其中， Losscrossentropy和Losstriplet分别代表交叉熵损失函数和三元组损失函数；最终的损失函数由各部分特征的损失函数求和而得，如式(2)所示；其中， N代表拼接前特征的数量，由于本方法使用一个全局特征和两个局部特征，因此N 为3；训练方法：由于局部分支按照PCB ‑RPP思想进行特征划分，因此模型的训练分为两个阶段，第一阶段内，局部特征分支先采取硬划分的方式将特征图均匀分为上下两个局部特征；第二阶段的训练在第一阶段训练收敛的基础上进行，即用一个分类器代替第一阶段内的均权　利　要　求　书 1/2 页 2 CN 114299542 A 2匀划分方法，将特征图上的每个点以概率的形式分配给每一个局部特征；此外，两个训练阶段内，网络模型的所有参数均参与迭代；步骤3、网络模型结构参数优化针对局部特征数量、局部特征尺寸以及Bottleneck数量三个参数对模型性能的影响做对比实验，在Mars数据集上进行训练和测试；具体按照局部特征数量、局部特征尺寸和Bottleneck数量的先后顺序进行实验优化，每项参数得到优化后保持其优化结果进入下一项参数的对比实验。权　利　要　求　书 2/2 页 3 CN 114299542 A 3

专利 一种基于多尺度特征融合的视频行人重识别方法

专利一种基于多尺度特征融合的视频行人重识别方法