(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111619737.8
(22)申请日 2021.12.28
(65)同一申请的已公布的文献号
申请公布号 CN 114328922 A
(43)申请公布日 2022.04.12
(73)专利权人 盐城工学院
地址 224000 江苏省盐城市 盐南高新区新
河街道办事处新怡社区新园路20号1
幢401室
专利权人 盐城工学院技 术转移中心有限公
司
(72)发明人 徐森 陈明权 徐秀芳 花小朋
皋军 安晶 王江峰 嵇宏伟
姜陈雨 陆湘文 (74)专利代理 机构 北京冠和权律师事务所
11399
专利代理师 田春龙
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
(56)对比文件
CN 112464638 A,2021.0 3.09
CN 113282756 A,2021.08.20
CN 113159233 A,2021.07.23
CN 112347246 A,2021.02.09
CN 113095348 A,2021.07.09
CN 106951498 A,2017.07.14
审查员 卢素斋
(54)发明名称
一种基于谱图理论的选择性文本聚类集成
方法
(57)摘要
本发明公开了一种基于谱图理论的选择性
文本聚类集成方法, 将文本数据集采用K均值算
法生成聚类成员; 采用谱聚类算法从生成的聚类
成员中选 择出代表性成员; 采用层次聚类方法对
选择出的代表 性成员进行集 成; 将集成后的代表
性成员构成本文聚类结果。 解决了谱聚类方法直
接应用于高维、 稀疏、 海量的文本数据集上时导
致的计算量大的问题, 因此, 采用本方案显著降
低文本聚类的计算时间, 有效提高了文本聚类的
准确性。 另外, 本实施例使用K均值算法作为基聚
类器随机选取初始质心, 算法复杂度低, 提升算
法的鲁棒 性。
权利要求书3页 说明书10页 附图8页
CN 114328922 B
2022.08.02
CN 114328922 B
1.一种基于谱图理论的选择性文本聚类集成方法, 其特 征在于, 包括:
S100, 将文本数据集采用K均值 算法生成聚类成员;
S200, 采用谱聚类算法从生成的聚类成员中选择 出代表性成员;
S300, 采用层次聚类方法对选择 出的代表性成员进行集成;
S400, 将集成后的代 表性成员构成本文聚类结果;
所述S300包括:
S301, 将选择出的每一个代表性成员 归为一类, 基于每一类之间的距离确定类与类之
间的相似度;
S302, 基于层次聚类方法确定的类与类之间的相似度对类进行合并, 形成新的类的集
合;
S303, 再次计算新的类的结合中类与类之间的相似度, 并基于相似度对类进行再次合
并;
S304, 重复步骤S3 03, 直至满足 终止条件时, 停止类的合并;
S305, 将满足 终止条件时的类的合并结果作为代 表性成员的集成结果;
所述S100包括:
S110, 从文本数据集中任意选择若干个文本向量作为初始聚类中心;
S111, 对于文本数据集中每个文本向量, 计算每个文本向量与所有初始聚类中心之间
的余弦相似度;
S112, 将所述 余弦相似度值从最高到最低排序;
S113, 将文本向量分配给 具有最高相似度的簇中;
S114, 在满足限制条件的情况下, 将文本向量按照顺序分配给相似高的合格簇; 所述限
制条件包括: 最大可分配簇和相似度比值界限; 所述最大可分配簇使每个样本点同时分配
给的簇的数量不大于第一预设值; 所述相似度比值界限是当某个文本向量与簇中心的距离
大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值; 所述第二预设值小于
1;
S115, 根据分配给 各簇的文本 重新计算若干各簇中心;
S116, 重复步骤S1 11至S115, 直至算法收敛。
2.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S200包括:
S201, 计算 生成的聚类成员之间的相似度;
S202, 根据计算出的相似度, 使用谱聚类算法对所述聚类成员进行聚类处理, 获得 聚类
结果; 所述聚类结果包括若干个聚类成员集 合;
S203, 在所述聚类结果中, 确定每个聚类成员集合中与其他聚类成员之间的归一化互
信息值之差的绝对值之和最小的聚类成员;
S204, 该确定出的聚类成员作为代 表性成员。
3.根据权利要求2所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S202包括:
S2021, 确定要选出代 表性成员的数量r0;
S2022, 根据计算出的聚类成员之间的相似度构造邻接矩阵, 把邻接矩阵的每一列元素权 利 要 求 书 1/3 页
2
CN 114328922 B
2放加起来得到N个数, 将每一列元素放在 对角线上组成一个N*N阶的对角矩阵, 称为度 矩阵,
基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;
S2023, 计算出拉普拉斯矩阵的前r0个特征值及对应的特 征向量;
S2024, 将r0个特征向量中的列排列在一起形成N*r0阶矩阵, 采用K ‑means算法对形成的
N*r0阶矩阵进行聚类处 理。
4.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S100包括:
S101, 设置每个聚类中聚类成员个数r和聚类个数k; 所述聚类个数k设置为真实类别
数;
S102, 设置控制参数i的初始值 为1;
S103, 判断所述控制参数i的值是否小于或等于聚类成员个数r; 若是, 则执行步骤
S104, 若否则执 行步骤S107;
S104, 随机生成k个均值向量, 作为K均值算法的初始质心, 使用K均值算法对文本数据
集进行划分;
S105, 根据划分结果得到聚类结果
S106, 将所述控制参数i的值加1, 执 行步骤S10 3;
S107, 构建聚类成员的集 合P′={P(1),P(2),…,P(r)}。
5.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S100之前包括:
S500, 将所有 文本进行分词处 理, 以及无效词筛除处 理, 形成文本的有效分词特 征;
S600, 将所有 文本进行词义 提取, 获得词义特 征;
S700, 计算所述分词特征与相应的词义特征之间的匹配关系, 将所述分词特征和词义
特征以及两者之间的匹配关系构建为文本特 征, 将所述文本特 征形成文本数据集。
6.根据权利要求4所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S104中使用K均值 算法对文本数据集进行划分包括:
S1041, 计算所述文本数据集中每 个文本与k个初始质心之间的余弦距离;
S1042, 基于所述 余弦距离, 将每一个文本划分入余弦距离最近的簇类中;
S1043, 重新计算每个簇类的质心以获得新的k个聚类质心; 重 复基于余弦距离, 将每一
个簇类划分入余弦距离最近的类中, 直至k个聚类质心不再改变为止, 停止划分, 形成对文
本数据集进行划分结果。
7.根据权利要求6所述的基于谱图理论的选择性文本聚类集成方法, 其特征在于, 所述
S1043中重新计算每 个簇类的质心以获得新的k个聚类质心, 包括:
S1043‑1, 设定目标函数, 所述目标函数标识簇类内余弦相似度和, 以及设定目标函数
中极大值 点为中心的聚类质心;
S1043‑2, 基于欧式距离与 余弦相似度计算的函数转换关系, 将目标函数的余弦相似度
计算转换为欧式距离计算;
S1043‑3, 对转换后的目标函数确定极小值 点;
S1043‑4, 根据极小值 点的计算过程, 确定极值 点, 所述极值 点即为新的聚类质心。权 利 要 求 书 2/3 页
3
CN 114328922 B
3
专利 一种基于谱图理论的选择性文本聚类集成方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:41:41上传分享