专利 一种基于外部三元组和抽象关系的图像描述生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111638065.5 (22)申请日 2021.12.2 9 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人姜明　陈景翔　张旻　李鹏飞　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于外部三元组和抽象关系的图像描述生成方法 (57)摘要本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组，构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合；根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测，生成场景图；并利用卷积神经网络融合视觉特征与文本特征，对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征，输入到双层LS TM序列生成模型中得到最终的图像描述。本发明使模型生成描述的表述更加丰富。权利要求书3页说明书5页附图3页 CN 114332519 A 2022.04.12 CN 114332519 A 1.一种基于外部三元组和抽象关系的图像描述生成方法，其特征在于包括以下步骤：步骤(1)使用开放域知识抽取工具，提取图像描述文本中的三元组，构建外部关系库，并对三元组进行特征编码；步骤(2)根据三元组中关系rel的文本相似度，将文本相似度高于设定阈值的三元组聚类为一类，称之为抽象关系Rabs；步骤(3)对图像进行目标检测，得到目标视觉特征集合V与目标类别集合W；根据文本相似度，在外部关系库中查询目标obj与目标类别相似的三元组，称之为相似关系Rsim；步骤(4)利用目标视觉特征V，对图像的目标obj、属性attr、关系rel分别进行预测，生成场景图；并利用多模态图卷积神经网络M GCN融合目标视觉特征与目标类别W的词向量，对目标obj、属性at tr、关系rel进行特征编码；步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征，得到融合特征；所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征；融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练，挑选最优训练模型；将图像输入训练好的图像描述生成模型，输出对应的图像描述。 2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法，其特征在于步骤(1)所述，具体实现过程如下： 1‑1使用MSCOCO与Visual Genome数据集中的图像文本描述，利用开放域知识抽取工具 OpenIE，提取图像文本描述中的三元组R＝{subject,predicate,object}，构建外部关系库； 1‑2使用预训练语言模型BERT对图像文本描述进行编码，得到所有图像文本描述中每个单词的特征编码；设图像文本描述由K个单词构成，则该段图像文本描述的特征向量为 {e0,e1,e2,…,ek,…,eK}，其中ek表示第k个单词的特征编码，为768维特征向量； 1‑3由于提取的三元组是在图像文本描述中出现过的单词，假设三个单词在图像文本描述中的位置为i,j,k，则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值，如公式(1)所示； 3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法，其特征在于步骤(2)所述，具体实现过程如下： 2‑1计算文本相似度，使用余弦相似度作为计算函数，假设两个三元组的编码特征分别为di′,dj′，则两个三元组的相似度如公式(2)所示；其中， i′、 j′表示第i′、 j′个三元组，取值范围为1到Nt， Nt表示三元组的个数； 2‑2使用无监督文本聚类算法，将文本相似度大于设定阈值的三元组聚为一类，称之为抽象关系Rabs； 2‑3对抽象关系Rabs进行特征表示，假设抽象关系Rabs存在K1个三元组，则抽象关系即三权　利　要　求　书 1/3 页 2 CN 114332519 A 2元组集合则该类抽象关系Rabs的特征编码如公式(3)所示；其中， d′k′表示三元组r′k′对应的编码特征。 4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法，其特征在于步骤(3)所述，具体实现过程如下： 3‑1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测， Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征；针对图像I，取 Faster RCNN最终输出并得到的目标类别集合W＝{w1,w2,…,ws},ws∈Rd以及目标视觉特征集合V＝{v1,v2,…,vs},vs∈Rd，如公式(4)所示； W,V＝Faster RCNN(I)#(4) 3‑2根据目标类别集合W，按照公式(2)计算文本相似度，在外部关系库中查询与目标类别相似的三元组，称之为相似关系Rsim； 3‑3与抽象关系类似，对相似关系Rsim进行特征表示，假设相似关系存在K2个三元组，则相似关系即三元组集合则该类相似关系Rsim的特征编码如公式(5)所示；其中， d″k″表示三元组d″k″对应的编码特征。 5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法，其特征在于步骤(4)所述，具体实现过程如下： 4‑1利用目标视觉特征V，对图像的目标obj、属性attr、关系rel分别进行预测，生成场景图；对于目标，利用FasterRCNN进行目标检测；对于属性，利用预先训练的属性分类器进行属性预测；对于关系，利用MOTIFS场景图生成模型进行关系检测；最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr； 4‑2为了获得更好的节点特征，融合对应类别词向量与视觉特征，通过公式(6)得到新的融合节点特征uo,ua,ur，其中W1,W2是融合参数； u＝ReLU(W1e+W2v)‑(W1e‑W2v)2#(6) 4‑3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN 中进行编码，得到场景图编码特征如公式(7)至公式(9)所示；权　利　要　求　书 2/3 页 3 CN 114332519 A 3

专利 一种基于外部三元组和抽象关系的图像描述生成方法

专利一种基于外部三元组和抽象关系的图像描述生成方法