公共安全标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111619737.8 (22)申请日 2021.12.28 (65)同一申请的已公布的文献号 申请公布号 CN 114328922 A (43)申请公布日 2022.04.12 (73)专利权人 盐城工学院 地址 224000 江苏省盐城市 盐南高新区新 河街道办事处新怡社区新园路20号1 幢401室 专利权人 盐城工学院技 术转移中心有限公 司 (72)发明人 徐森 陈明权 徐秀芳 花小朋  皋军 安晶 王江峰 嵇宏伟  姜陈雨 陆湘文 (74)专利代理 机构 北京冠和权律师事务所 11399 专利代理师 田春龙 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/242(2020.01) G06F 40/289(2020.01) (56)对比文件 CN 112464638 A,2021.0 3.09 CN 113282756 A,2021.08.20 CN 113159233 A,2021.07.23 CN 112347246 A,2021.02.09 CN 113095348 A,2021.07.09 CN 106951498 A,2017.07.14 审查员 卢素斋 (54)发明名称 一种基于谱图理论的选择性文本聚类集成 方法 (57)摘要 本发明公开了一种基于谱图理论的选择性 文本聚类集成方法, 将文本数据集采用K均值算 法生成聚类成员; 采用谱聚类算法从生成的聚类 成员中选 择出代表性成员; 采用层次聚类方法对 选择出的代表 性成员进行集 成; 将集成后的代表 性成员构成本文聚类结果。 解决了谱聚类方法直 接应用于高维、 稀疏、 海量的文本数据集上时导 致的计算量大的问题, 因此, 采用本方案显著降 低文本聚类的计算时间, 有效提高了文本聚类的 准确性。 另外, 本实施例使用K均值算法作为基聚 类器随机选取初始质心, 算法复杂度低, 提升算 法的鲁棒 性。 权利要求书3页 说明书10页 附图8页 CN 114328922 B 2022.08.02 CN 114328922 B 1.一种基于谱图理论的选择性文本聚类集成方法, 其特 征在于, 包括: S100, 将文本数据集采用K均值 算法生成聚类成员; S200, 采用谱聚类算法从生成的聚类成员中选择 出代表性成员; S300, 采用层次聚类方法对选择 出的代表性成员进行集成; S400, 将集成后的代 表性成员构成本文聚类结果; 所述S300包括: S301, 将选择出的每一个代表性成员 归为一类, 基于每一类之间的距离确定类与类之 间的相似度; S302, 基于层次聚类方法确定的类与类之间的相似度对类进行合并, 形成新的类的集 合; S303, 再次计算新的类的结合中类与类之间的相似度, 并基于相似度对类进行再次合 并; S304, 重复步骤S3 03, 直至满足 终止条件时, 停止类的合并; S305, 将满足 终止条件时的类的合并结果作为代 表性成员的集成结果; 所述S100包括: S110, 从文本数据集中任意选择若干个文本向量作为初始聚类中心; S111, 对于文本数据集中每个文本向量, 计算每个文本向量与所有初始聚类中心之间 的余弦相似度; S112, 将所述 余弦相似度值从最高到最低排序; S113, 将文本向量分配给 具有最高相似度的簇中; S114, 在满足限制条件的情况下, 将文本向量按照顺序分配给相似高的合格簇; 所述限 制条件包括: 最大可分配簇和相似度比值界限; 所述最大可分配簇使每个样本点同时分配 给的簇的数量不大于第一预设值; 所述相似度比值界限是当某个文本向量与簇中心的距离 大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值; 所述第二预设值小于 1; S115, 根据分配给 各簇的文本 重新计算若干各簇中心; S116, 重复步骤S1 11至S115, 直至算法收敛。 2.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S200包括: S201, 计算 生成的聚类成员之间的相似度; S202, 根据计算出的相似度, 使用谱聚类算法对所述聚类成员进行聚类处理, 获得 聚类 结果; 所述聚类结果包括若干个聚类成员集 合; S203, 在所述聚类结果中, 确定每个聚类成员集合中与其他聚类成员之间的归一化互 信息值之差的绝对值之和最小的聚类成员; S204, 该确定出的聚类成员作为代 表性成员。 3.根据权利要求2所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S202包括: S2021, 确定要选出代 表性成员的数量r0; S2022, 根据计算出的聚类成员之间的相似度构造邻接矩阵, 把邻接矩阵的每一列元素权 利 要 求 书 1/3 页 2 CN 114328922 B 2放加起来得到N个数, 将每一列元素放在 对角线上组成一个N*N阶的对角矩阵, 称为度 矩阵, 基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵; S2023, 计算出拉普拉斯矩阵的前r0个特征值及对应的特 征向量; S2024, 将r0个特征向量中的列排列在一起形成N*r0阶矩阵, 采用K ‑means算法对形成的 N*r0阶矩阵进行聚类处 理。 4.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S100包括: S101, 设置每个聚类中聚类成员个数r和聚类个数k; 所述聚类个数k设置为真实类别 数; S102, 设置控制参数i的初始值 为1; S103, 判断所述控制参数i的值是否小于或等于聚类成员个数r; 若是, 则执行步骤 S104, 若否则执 行步骤S107; S104, 随机生成k个均值向量, 作为K均值算法的初始质心, 使用K均值算法对文本数据 集进行划分; S105, 根据划分结果得到聚类结果 S106, 将所述控制参数i的值加1, 执 行步骤S10 3; S107, 构建聚类成员的集 合P′={P(1),P(2),…,P(r)}。 5.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S100之前包括: S500, 将所有 文本进行分词处 理, 以及无效词筛除处 理, 形成文本的有效分词特 征; S600, 将所有 文本进行词义 提取, 获得词义特 征; S700, 计算所述分词特征与相应的词义特征之间的匹配关系, 将所述分词特征和词义 特征以及两者之间的匹配关系构建为文本特 征, 将所述文本特 征形成文本数据集。 6.根据权利要求4所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S104中使用K均值 算法对文本数据集进行划分包括: S1041, 计算所述文本数据集中每 个文本与k个初始质心之间的余弦距离; S1042, 基于所述 余弦距离, 将每一个文本划分入余弦距离最近的簇类中; S1043, 重新计算每个簇类的质心以获得新的k个聚类质心; 重 复基于余弦距离, 将每一 个簇类划分入余弦距离最近的类中, 直至k个聚类质心不再改变为止, 停止划分, 形成对文 本数据集进行划分结果。 7.根据权利要求6所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述 S1043中重新计算每 个簇类的质心以获得新的k个聚类质心, 包括: S1043‑1, 设定目标函数, 所述目标函数标识簇类内余弦相似度和, 以及设定目标函数 中极大值 点为中心的聚类质心; S1043‑2, 基于欧式距离与 余弦相似度计算的函数转换关系, 将目标函数的余弦相似度 计算转换为欧式距离计算; S1043‑3, 对转换后的目标函数确定极小值 点; S1043‑4, 根据极小值 点的计算过程, 确定极值 点, 所述极值 点即为新的聚类质心。权 利 要 求 书 2/3 页 3 CN 114328922 B 3

.PDF文档 专利 一种基于谱图理论的选择性文本聚类集成方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于谱图理论的选择性文本聚类集成方法 第 1 页 专利 一种基于谱图理论的选择性文本聚类集成方法 第 2 页 专利 一种基于谱图理论的选择性文本聚类集成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:41:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。