公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111638065.5 (22)申请日 2021.12.2 9 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 姜明 陈景翔 张旻 李鹏飞  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于外部三元组和抽象关系的图像描 述生成方法 (57)摘要 本发明公开了一种基于外部三元组和抽象 关系的图像描述生成方法。 本发 明首先提取图像 描述文本中的三元组, 构建外部关系库并对三元 组进行特征编码。 将文本相似度高于阈值的三元 组聚类为一类。 同时模型对图像进行目标检测得 得到目标视觉特征集合与目标类别集合; 根据文 本相似度在外部关系库中查询目标与 目标类别 相似的三元 组。 模型利用目标视觉特征对图像的 目标、 属性、 关系分别进行预测, 生成场景图; 并 利用卷积神经网络融合视觉特征与文本特征, 对 目标、 属性、 关系进行特征编码。 最后融合场景图 目标、 属性、 关系编码特征与相似关系和抽象关 系的编码特征, 输入到双层LS TM序列生成模型中 得到最终的图像描述。 本发明使模 型生成描述的 表述更加丰富。 权利要求书3页 说明书5页 附图3页 CN 114332519 A 2022.04.12 CN 114332519 A 1.一种基于 外部三元组和抽象关系的图像描述 生成方法, 其特 征在于包括以下步骤: 步骤(1)使用开放域知识抽取工具, 提取图像描述文本中的三元组, 构建外部关系库, 并对三元组进行 特征编码; 步骤(2)根据三元组中关系rel的文本相似度, 将文本相似度高于设定阈值的三元组聚 类为一类, 称之为抽象关系Rabs; 步骤(3)对图像进行目标检测, 得到目标视觉特征集合V与目标类别集合W; 根据文本相 似度, 在外 部关系库中查询目标obj与目标类别相似的三元组, 称之为相似关系Rsim; 步骤(4)利用目标视觉特征V, 对图像 的目标obj、 属性attr、 关系rel分别进行预测, 生 成场景图; 并利用多模态图卷积神经网络M GCN融合目标视觉特征与目标类别W的词向量, 对 目标obj、 属性at tr、 关系rel进行 特征编码; 步骤(5)图像描述生成模型用于 融合场景图编码特征与关系编码特征, 得到 融合特征; 所述的关系编 码特征包括相似关系的编 码特征和抽象关系的编 码特征; 融合特征输入到图 像描述生成模型的双层LSTM解码器中进行训练, 挑选最优训练模型; 将图像输入训练好的 图像描述 生成模型, 输出对应的图像描述。 2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特 征在于步骤(1)所述, 具体实现过程如下: 1‑1使用MSCOCO与Visual  Genome数据集中 的图像文本描述, 利用开放域知识抽取工具 OpenIE, 提取 图像文本描述中的三元组R={subject,predicate,object}, 构建外部关系 库; 1‑2使用预训练语言模型BERT对图像文本描述进行编码, 得到所有图像文本描述中每 个单词的特征编码; 设图像文本描述由K个单词构成, 则该段图像文本描述的特征向量为 {e0,e1,e2,…,ek,…,eK}, 其中ek表示第k个单词的特 征编码, 为768维特 征向量; 1‑3由于提取的三元组是在图像文本描述中出现过的单词, 假设三个单词在图像文本 描述中的位置为i,j,k, 则三元组的编码特征d为三元 组在描述对应位置的特征编码的平均 值, 如公式(1)所示; 3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特 征在于步骤(2)所述, 具体实现过程如下: 2‑1计算文本相似度, 使用余弦相似度作为计算函数, 假设两个三元组的编码特征分别 为di′,dj′, 则两个三元组的相似度如公式(2)所示; 其中, i′、 j′表示第i′、 j′个三元组, 取值范围为1到Nt, Nt表示三元组的个数; 2‑2使用无监督文本聚类算法, 将文本相似度大于设定阈值的三元组聚为一类, 称之为 抽象关系Rabs; 2‑3对抽象关系Rabs进行特征表示, 假设抽象关系Rabs存在K1个三元组, 则抽象关系即三权 利 要 求 书 1/3 页 2 CN 114332519 A 2元组集合 则该类抽象关系Rabs的特征编码如公式(3)所示; 其中, d′k′表示三元组r′k′对应的编码特 征。 4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特 征在于步骤(3)所述, 具体实现过程如下: 3‑1使用在Visual  Genome数据集上预先训练的Faster  RCNN对图像进行目标检测, Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征; 针对图像I, 取 Faster RCNN最终输出并得到的目标类别集合W={w1,w2,…,ws},ws∈Rd以及目标视觉特征 集合V={v1,v2,…,vs},vs∈Rd, 如公式(4)所示; W,V=Faster  RCNN(I)#(4) 3‑2根据目标类别集合W, 按照公式(2)计算文本相似度, 在外部关系库中查询与目标类 别相似的三元组, 称之为相似关系Rsim; 3‑3与抽象关系类似, 对相似关系Rsim进行特征表示, 假设相似关系存在K2个三元组, 则 相似关系即三元组集合 则该类相似关系Rsim的特征编码如公 式(5)所示; 其中, d″k″表示三元组d″k″对应的编码特 征。 5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法, 其特 征在于步骤(4)所述, 具体实现过程如下: 4‑1利用目标视觉特征V, 对图像 的目标obj、 属性attr、 关系rel分别进行预测, 生成场 景图; 对于目标, 利用FasterRCNN进行目标检测; 对于属性, 利用预先训练的属性分类器进 行属性预测; 对于关系, 利用MOTIFS场景图生 成模型进行关系检测; 最 终分别得到目标obj、 属性attr、 关系rel的类别词向量eo,ea,er以及它们对应的视 觉特征vo,va,vr; 4‑2为了获得更好的节点特征, 融合对应类别词向量与视觉特征, 通过公式(6)得到新 的融合节点特 征uo,ua,ur, 其中W1,W2是融合参数; u=ReLU(W1e+W2v)‑(W1e‑W2v)2#(6) 4‑3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN 中进行编码, 得到场景图编码特 征 如公式(7)至公式(9)所示; 权 利 要 求 书 2/3 页 3 CN 114332519 A 3

.PDF文档 专利 一种基于外部三元组和抽象关系的图像描述生成方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于外部三元组和抽象关系的图像描述生成方法 第 1 页 专利 一种基于外部三元组和抽象关系的图像描述生成方法 第 2 页 专利 一种基于外部三元组和抽象关系的图像描述生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:41:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。