(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111635864.7
(22)申请日 2021.12.2 9
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 宋子辰 李宏亮 孟凡满 吴庆波
许林峰 潘力立 邱荷茜
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 吴姗霖
(51)Int.Cl.
G06T 7/11(2017.01)
G06T 5/50(2006.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于显式监督区域关系的场景解析模
型及方法
(57)摘要
本发明的目的在于提供一种基于显式监督
区域关系的场景解析模型及方法, 属于计算机视
觉中的图像分割技术领域。 本发 明所公开的场景
解析模型通过对场景图片中的区域内和区域间
关系分别建模, 并在网络训练过程中给予两种区
域关系对应的显式监督信息, 使得区域内关系模
块利用了 更准确的区域内类别先验信息, 提高了
困难类别的判别能力; 通过区域间关系模块捕捉
了更准确的区域间类别相互关系, 提高了相似类
别的分辨能力, 具有解析准确率高、 额外计算复
杂度低等特点。
权利要求书2页 说明书6页 附图2页
CN 114494284 A
2022.05.13
CN 114494284 A
1.一种基于显 式监督区域关系的场景解析模型, 其特征在于, 包括网络预处理模块、 深
度扩张卷积特征提取模块、 扩张卷积空间池化金字塔模块、 初步解析模块、 区域内关系模
块、 区域间关系模块和修 正解析模块;
其中, 所述网络预处理模块用于对场景图片进行预处理, 得到所需场景图像; 所述深度
扩张卷积特征提取模块用于提取预 处理后的场景图像的图像特征; 所述扩张卷积空间池化
金字塔模块用于对提取的图像特 征处理得到多尺度增强的图像特 征;
所述初步解析模块包括依次连接的一个3 ×3卷积层、 一个批量归一化层、 一个ReLU层、
一个Dropout层和一个1x1卷积层, 其中, 1x1卷积层的输出维度为数据集场景类别标签数
量; 多尺度增强的图像特 征输入初步 解析模块后, 即可 得到初步场景解析 结果;
所述区域内关系模块包括依次连接的一个区域划子分模块和一个区域内关系学习子
模块; 所述区域划分子模块为一个 自适应池化层, 区域内关系 学习子模块包括依 次连接的
一个动态卷积层、 四个连续的3 ×3卷积‑批量归一化 ‑ReLU层和一个 sigmoid层; 所述区域内
关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区域, 然后通
过动态卷积层自适应地对不同区域特征进行变换, 再通过四个连续的3 ×3卷积‑批量归一
化‑ReLU层将变换后的区域特征处理得到区域内关系增强特征, 通过sigmoid层得到预测的
区域内关系;
所述区域间关系模块包括依次连接的区域划分子模块和有监督的Non ‑Local子模块,
其中, 区域划分子模块为一个自适应池化层, 有监督的Non ‑Local子模块包括三个1 ×1卷积
层; 区域间关系模块通过区域划分子模块将输入的多尺度增强的图像特征划分成kxk个区
域, 通过第一个1 ×1卷积层和第二个1 ×1卷积层将不同区域的图像特征进行特征变换、 再
进行维度重组, 将这个1x1卷积层维度重整后的结果进 行矩阵乘法处理, 得到预测的区域间
关系, 预测的区域间关系与第三个1 ×1卷积层进行矩阵乘法, 得到区域间关系增强特 征;
所述修正解析模块包括依次连接的一个3 ×3卷积‑批量归一化 ‑ReLU层、 一个Dropout
层、 一个1x1卷积层和一个线性插值上采样层, 1x1卷积层的输出维度为数据集场景类别标
签数量; 修正解析模块通过3 ×3卷积‑批量归一化 ‑ReLU层将区域内关系增强特征和区域间
关系增强特征进行特征融合, 通过Dropout层和1x1卷积层将融合后的特征进行修正, 修正
后的结果与初步场景解析结果线性加权得到修正后的解析结果, 通过线性插值上采样层将
修正后的解析 结果上采样到原图分辨 率, 得到最终场景解析 结果。
2.如权利要求1所述的基于显式监督 区域关系的场景解析模型, 其特征在于, 场景解析
模型的损失函数设置为:
Ltotal=Lseg+α LIntra+β LInter,
其中, Lseg表示初步解析模块的交叉熵损失, LIntra表示区域内关系模块的交叉熵损失,
LInter表示区域间关系模块的交叉熵损失, α 和β 为预置损失系数;
其中, N为图像像素个数, C为场景类别个数, DKL(mi,ni)为mi和ni之间的KL距离, i和j分
别为第i和j列的像素, xi,j为像素类别预测概率, yi为像素类别标签; R为图像区域个数, mi为权 利 要 求 书 1/2 页
2
CN 114494284 A
2预测的区域内类别分布, ni为真实的区域内类别分布; qi,j为预测的区域间相似度, pi,j为真
实的区域间相似度。
3.如权利要求1所述的基于显式监督 区域关系的场景解析模型, 其特征在于, 所述深度
扩张卷积特征提取模块为Dilated ‑ResNet101网络, 该网络包括一个STEM模块和四组残差
子网络; STEM模块包括连续三个3 ×3卷积‑批量归一化 ‑ReLU层和一个步长为2的最大池化
层, 四组残差子网络 分别包括3、 4、 23、 3个残差模块; 其中, 第三和第四个残差子网络中的残
差模块分别采用扩张系数为2和4的扩张卷积。
所述扩张卷积空间池化金字塔模块包括 四个不同尺度的扩 张卷积分支, 一个全局分支
和一个特征融合分支; 扩张卷积分支包括一个3 ×3卷积层、 一个批量归一化层和一个ReLU
层, 四个分支的扩张卷积系数为 1、 12、 24和36, 全局分支包括一个全局池化层和一个3 ×3卷
积‑批量归一化 ‑ReLU层, 特征融合分支包括一个特征级 联层和一个3 ×3卷积‑批量归一化 ‑
ReLU层。
4.一种构建场景解析模型的构建方法, 其特 征在于, 包括以下步骤:
步骤1.选择训练数据集;
步骤2.构建如权利要求1~3任一权利要求所述的基于显式监督区域关系的场景解析
模型的网络结构;
步骤3.训练场景解析模型的网络结构, 并在训练过程中对区域内关系模块和区域间关
系模块增 加显式监 督, 直至模型网络收敛, 网络参数固定;
步骤4.在测试集上验证具有网络结构参数的场景解析模型, 得到所需的场景解析模
型。
5.如权利要求4所述的构建方法, 其特征在于, 步骤3 中训练网络结构时, 区域内关系 模
块得到的预测的区域内关系, 在训练时与真实的区域内类别分布计算损失, 在其监督下学
习; 区域间关系模块得到的预测的区域间关系, 在训练时与真实的区域间类别相似度矩阵
计算损失, 在其 监督下学习; 两种监 督信息直接从场景解析类别标签中计算得 出。
6.如权利要求4所述的构建方法, 其特征在于, 步骤3 中网络结构超参数包括: 选择梯度
下降方法, 并设置学习率的更新方式、 最大训练迭代次数和损失函数。
7.一种基于 显示监督区域关系的场景解析 方法, 其特 征在于, 包括以下步骤:
步骤1.采集训练数据集, 并对数据集中的训练数据进行图像预处理, 生成得到所需场
景图像; 预处 理包括对图像进行归一 化处理、 多尺度随机放缩、 随机翻转 等;
步骤2.如权利要求4所述的构建方法构建场景解析模型, 并基于所需场景图像对场景
解析模型进行网络训练, 当网络训练满足预设的精度要求时, 保存训练好的场景解析模型
作为场景解析器;
步骤3.将待解析的图像进行图像数据预处理, 然后输入步骤2得到的场景解析器, 即可
得到场景解析图像结果。权 利 要 求 书 2/2 页
3
CN 114494284 A
3
专利 一种基于显式监督区域关系的场景解析模型及方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:41:10上传分享