专利 一种基于显式监督区域关系的场景解析模型及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111635864.7 (22)申请日 2021.12.2 9 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人宋子辰　李宏亮　孟凡满　吴庆波　许林峰　潘力立　邱荷茜　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师吴姗霖 (51)Int.Cl. G06T 7/11(2017.01) G06T 5/50(2006.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于显式监督区域关系的场景解析模型及方法 (57)摘要本发明的目的在于提供一种基于显式监督区域关系的场景解析模型及方法，属于计算机视觉中的图像分割技术领域。本发明所公开的场景解析模型通过对场景图片中的区域内和区域间关系分别建模，并在网络训练过程中给予两种区域关系对应的显式监督信息，使得区域内关系模块利用了更准确的区域内类别先验信息，提高了困难类别的判别能力；通过区域间关系模块捕捉了更准确的区域间类别相互关系，提高了相似类别的分辨能力，具有解析准确率高、额外计算复杂度低等特点。权利要求书2页说明书6页附图2页 CN 114494284 A 2022.05.13 CN 114494284 A 1.一种基于显式监督区域关系的场景解析模型，其特征在于，包括网络预处理模块、深度扩张卷积特征提取模块、扩张卷积空间池化金字塔模块、初步解析模块、区域内关系模块、区域间关系模块和修正解析模块；其中，所述网络预处理模块用于对场景图片进行预处理，得到所需场景图像；所述深度扩张卷积特征提取模块用于提取预处理后的场景图像的图像特征；所述扩张卷积空间池化金字塔模块用于对提取的图像特征处理得到多尺度增强的图像特征；所述初步解析模块包括依次连接的一个3 ×3卷积层、一个批量归一化层、一个ReLU层、一个Dropout层和一个1x1卷积层，其中， 1x1卷积层的输出维度为数据集场景类别标签数量；多尺度增强的图像特征输入初步解析模块后，即可得到初步场景解析结果；所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子模块；所述区域划分子模块为一个自适应池化层，区域内关系学习子模块包括依次连接的一个动态卷积层、四个连续的3 ×3卷积‑批量归一化 ‑ReLU层和一个 sigmoid层；所述区域内关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，然后通过动态卷积层自适应地对不同区域特征进行变换，再通过四个连续的3 ×3卷积‑批量归一化‑ReLU层将变换后的区域特征处理得到区域内关系增强特征，通过sigmoid层得到预测的区域内关系；所述区域间关系模块包括依次连接的区域划分子模块和有监督的Non ‑Local子模块，其中，区域划分子模块为一个自适应池化层，有监督的Non ‑Local子模块包括三个1 ×1卷积层；区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域，通过第一个1 ×1卷积层和第二个1 ×1卷积层将不同区域的图像特征进行特征变换、再进行维度重组，将这个1x1卷积层维度重整后的结果进行矩阵乘法处理，得到预测的区域间关系，预测的区域间关系与第三个1 ×1卷积层进行矩阵乘法，得到区域间关系增强特征；所述修正解析模块包括依次连接的一个3 ×3卷积‑批量归一化 ‑ReLU层、一个Dropout 层、一个1x1卷积层和一个线性插值上采样层， 1x1卷积层的输出维度为数据集场景类别标签数量；修正解析模块通过3 ×3卷积‑批量归一化 ‑ReLU层将区域内关系增强特征和区域间关系增强特征进行特征融合，通过Dropout层和1x1卷积层将融合后的特征进行修正，修正后的结果与初步场景解析结果线性加权得到修正后的解析结果，通过线性插值上采样层将修正后的解析结果上采样到原图分辨率，得到最终场景解析结果。 2.如权利要求1所述的基于显式监督区域关系的场景解析模型，其特征在于，场景解析模型的损失函数设置为： Ltotal＝Lseg+α LIntra+β LInter，其中， Lseg表示初步解析模块的交叉熵损失， LIntra表示区域内关系模块的交叉熵损失， LInter表示区域间关系模块的交叉熵损失， α 和β 为预置损失系数；其中， N为图像像素个数， C为场景类别个数， DKL(mi,ni)为mi和ni之间的KL距离， i和j分别为第i和j列的像素， xi,j为像素类别预测概率， yi为像素类别标签； R为图像区域个数， mi为权　利　要　求　书 1/2 页 2 CN 114494284 A 2预测的区域内类别分布， ni为真实的区域内类别分布； qi,j为预测的区域间相似度， pi,j为真实的区域间相似度。 3.如权利要求1所述的基于显式监督区域关系的场景解析模型，其特征在于，所述深度扩张卷积特征提取模块为Dilated ‑ResNet101网络，该网络包括一个STEM模块和四组残差子网络； STEM模块包括连续三个3 ×3卷积‑批量归一化 ‑ReLU层和一个步长为2的最大池化层，四组残差子网络分别包括3、 4、 23、 3个残差模块；其中，第三和第四个残差子网络中的残差模块分别采用扩张系数为2和4的扩张卷积。所述扩张卷积空间池化金字塔模块包括四个不同尺度的扩张卷积分支，一个全局分支和一个特征融合分支；扩张卷积分支包括一个3 ×3卷积层、一个批量归一化层和一个ReLU 层，四个分支的扩张卷积系数为 1、 12、 24和36，全局分支包括一个全局池化层和一个3 ×3卷积‑批量归一化 ‑ReLU层，特征融合分支包括一个特征级联层和一个3 ×3卷积‑批量归一化 ‑ ReLU层。 4.一种构建场景解析模型的构建方法，其特征在于，包括以下步骤：步骤1.选择训练数据集；步骤2.构建如权利要求1～3任一权利要求所述的基于显式监督区域关系的场景解析模型的网络结构；步骤3.训练场景解析模型的网络结构，并在训练过程中对区域内关系模块和区域间关系模块增加显式监督，直至模型网络收敛，网络参数固定；步骤4.在测试集上验证具有网络结构参数的场景解析模型，得到所需的场景解析模型。 5.如权利要求4所述的构建方法，其特征在于，步骤3 中训练网络结构时，区域内关系模块得到的预测的区域内关系，在训练时与真实的区域内类别分布计算损失，在其监督下学习；区域间关系模块得到的预测的区域间关系，在训练时与真实的区域间类别相似度矩阵计算损失，在其监督下学习；两种监督信息直接从场景解析类别标签中计算得出。 6.如权利要求4所述的构建方法，其特征在于，步骤3 中网络结构超参数包括：选择梯度下降方法，并设置学习率的更新方式、最大训练迭代次数和损失函数。 7.一种基于显示监督区域关系的场景解析方法，其特征在于，包括以下步骤：步骤1.采集训练数据集，并对数据集中的训练数据进行图像预处理，生成得到所需场景图像；预处理包括对图像进行归一化处理、多尺度随机放缩、随机翻转等；步骤2.如权利要求4所述的构建方法构建场景解析模型，并基于所需场景图像对场景解析模型进行网络训练，当网络训练满足预设的精度要求时，保存训练好的场景解析模型作为场景解析器；步骤3.将待解析的图像进行图像数据预处理，然后输入步骤2得到的场景解析器，即可得到场景解析图像结果。权　利　要　求　书 2/2 页 3 CN 114494284 A 3

专利 一种基于显式监督区域关系的场景解析模型及方法

专利一种基于显式监督区域关系的场景解析模型及方法