(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111638065.5
(22)申请日 2021.12.2 9
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 姜明 陈景翔 张旻 李鹏飞
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
代理人 朱月芬
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于外部三元组和抽象关系的图像描
述生成方法
(57)摘要
本发明公开了一种基于外部三元组和抽象
关系的图像描述生成方法。 本发 明首先提取图像
描述文本中的三元组, 构建外部关系库并对三元
组进行特征编码。 将文本相似度高于阈值的三元
组聚类为一类。 同时模型对图像进行目标检测得
得到目标视觉特征集合与目标类别集合; 根据文
本相似度在外部关系库中查询目标与 目标类别
相似的三元 组。 模型利用目标视觉特征对图像的
目标、 属性、 关系分别进行预测, 生成场景图; 并
利用卷积神经网络融合视觉特征与文本特征, 对
目标、 属性、 关系进行特征编码。 最后融合场景图
目标、 属性、 关系编码特征与相似关系和抽象关
系的编码特征, 输入到双层LS TM序列生成模型中
得到最终的图像描述。 本发明使模 型生成描述的
表述更加丰富。
权利要求书3页 说明书5页 附图3页
CN 114332519 A
2022.04.12
CN 114332519 A
1.一种基于 外部三元组和抽象关系的图像描述 生成方法, 其特 征在于包括以下步骤:
步骤(1)使用开放域知识抽取工具, 提取图像描述文本中的三元组, 构建外部关系库,
并对三元组进行 特征编码;
步骤(2)根据三元组中关系rel的文本相似度, 将文本相似度高于设定阈值的三元组聚
类为一类, 称之为抽象关系Rabs;
步骤(3)对图像进行目标检测, 得到目标视觉特征集合V与目标类别集合W; 根据文本相
似度, 在外 部关系库中查询目标obj与目标类别相似的三元组, 称之为相似关系Rsim;
步骤(4)利用目标视觉特征V, 对图像 的目标obj、 属性attr、 关系rel分别进行预测, 生
成场景图; 并利用多模态图卷积神经网络M GCN融合目标视觉特征与目标类别W的词向量, 对
目标obj、 属性at tr、 关系rel进行 特征编码;
步骤(5)图像描述生成模型用于 融合场景图编码特征与关系编码特征, 得到 融合特征;
所述的关系编 码特征包括相似关系的编 码特征和抽象关系的编 码特征; 融合特征输入到图
像描述生成模型的双层LSTM解码器中进行训练, 挑选最优训练模型; 将图像输入训练好的
图像描述 生成模型, 输出对应的图像描述。
2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特
征在于步骤(1)所述, 具体实现过程如下:
1‑1使用MSCOCO与Visual Genome数据集中 的图像文本描述, 利用开放域知识抽取工具
OpenIE, 提取 图像文本描述中的三元组R={subject,predicate,object}, 构建外部关系
库;
1‑2使用预训练语言模型BERT对图像文本描述进行编码, 得到所有图像文本描述中每
个单词的特征编码; 设图像文本描述由K个单词构成, 则该段图像文本描述的特征向量为
{e0,e1,e2,…,ek,…,eK}, 其中ek表示第k个单词的特 征编码, 为768维特 征向量;
1‑3由于提取的三元组是在图像文本描述中出现过的单词, 假设三个单词在图像文本
描述中的位置为i,j,k, 则三元组的编码特征d为三元 组在描述对应位置的特征编码的平均
值, 如公式(1)所示;
3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特
征在于步骤(2)所述, 具体实现过程如下:
2‑1计算文本相似度, 使用余弦相似度作为计算函数, 假设两个三元组的编码特征分别
为di′,dj′, 则两个三元组的相似度如公式(2)所示;
其中, i′、 j′表示第i′、 j′个三元组, 取值范围为1到Nt, Nt表示三元组的个数;
2‑2使用无监督文本聚类算法, 将文本相似度大于设定阈值的三元组聚为一类, 称之为
抽象关系Rabs;
2‑3对抽象关系Rabs进行特征表示, 假设抽象关系Rabs存在K1个三元组, 则抽象关系即三权 利 要 求 书 1/3 页
2
CN 114332519 A
2元组集合
则该类抽象关系Rabs的特征编码如公式(3)所示;
其中, d′k′表示三元组r′k′对应的编码特 征。
4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特
征在于步骤(3)所述, 具体实现过程如下:
3‑1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,
Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征; 针对图像I, 取
Faster RCNN最终输出并得到的目标类别集合W={w1,w2,…,ws},ws∈Rd以及目标视觉特征
集合V={v1,v2,…,vs},vs∈Rd, 如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3‑2根据目标类别集合W, 按照公式(2)计算文本相似度, 在外部关系库中查询与目标类
别相似的三元组, 称之为相似关系Rsim;
3‑3与抽象关系类似, 对相似关系Rsim进行特征表示, 假设相似关系存在K2个三元组, 则
相似关系即三元组集合
则该类相似关系Rsim的特征编码如公
式(5)所示;
其中, d″k″表示三元组d″k″对应的编码特 征。
5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特
征在于步骤(4)所述, 具体实现过程如下:
4‑1利用目标视觉特征V, 对图像 的目标obj、 属性attr、 关系rel分别进行预测, 生成场
景图; 对于目标, 利用FasterRCNN进行目标检测; 对于属性, 利用预先训练的属性分类器进
行属性预测; 对于关系, 利用MOTIFS场景图生 成模型进行关系检测; 最 终分别得到目标obj、
属性attr、 关系rel的类别词向量eo,ea,er以及它们对应的视 觉特征vo,va,vr;
4‑2为了获得更好的节点特征, 融合对应类别词向量与视觉特征, 通过公式(6)得到新
的融合节点特 征uo,ua,ur, 其中W1,W2是融合参数;
u=ReLU(W1e+W2v)‑(W1e‑W2v)2#(6)
4‑3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN 中进行编码,
得到场景图编码特 征
如公式(7)至公式(9)所示;
权 利 要 求 书 2/3 页
3
CN 114332519 A
3
专利 一种基于外部三元组和抽象关系的图像描述生成方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:41:02上传分享