公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111623011.1 (22)申请日 2021.12.28 (71)申请人 航天科工智能运 筹与信息安全研究 院 (武汉) 有限公司 地址 430040 湖北省武汉市临 空港经济技 术开发区五环大道6 66号 (72)发明人 陈晓东 马小乐 黄家辉 魏向元 王成欢 黄腾 王韫泽 秦天浩 (74)专利代理 机构 中国兵器 工业集团公司专利 中心 11011 代理人 王雪芬 (51)Int.Cl. G06F 16/2458(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于改进Apriori算法的相似模型检索 方法 (57)摘要 本发明涉及一种基于改进Apriori算法的相 似模型检索方法, 属于相似性检索技术领域。 本 发明为提高Apriori关联规则挖掘效率, 采用改 进Apriori算法实现增量快速 更新与阈值快速 更 新, 根据“频繁项集任一子集必是频繁项集 ”原 则, 利用现有频繁项集, 对新增候选项集进行剪 枝, 接着生成新频繁项集, 然后通过频繁项集计 算关联规则。 最后, 使用余弦相似度算法挖掘潜 在相似模型。 本发明为相似算法模 型检索提供了 高效的技 术方案, 具有重要的现实应用价 值。 权利要求书2页 说明书5页 附图1页 CN 114297257 A 2022.04.08 CN 114297257 A 1.一种基于改进Apri ori算法的相似 模型检索方法, 其特 征在于, 包括以下步骤: S1、 选取模型 数据集D, 对 模型数据集D进行去重、 排序, 创建一项候选集C1; S2、 扫描数据集D, 计算一项候选集C1在数据集D中的支持度, 判断支持度是否大于最小 支持度mi nSupport, 大于最小支持度mi nSupport的项集形成一项频繁集 L1; S3、 根据L1进行组合计算, 得到所有可能的候选项集C2, 计算二项候选集C2在数据集D 中的支持度, 大于最小支持度minSupport的项集形成二项频繁集L2, 迭代执行此步, 得到k 项频繁集 Lk; S4、 通过频繁项集Lk递归计算可信度, 记录可信度大于最小可信度minConf的集合, 生 成关联规则; S5、 新增数据集Dn, 使用Apriori增量快速更新算法生成新的频繁项集Lk, 再递归计算 可信度, 通过 可信度计数生成关联规则; S6、 更新最小支持度minSupport, 使用Apriori阈值快速更新算法生成新的频繁项集 Lk, 再递归计算可信度, 通过 可信度计数生成关联规则; S7、 使用余弦相似度算法计算S6中关联规则的相似度, 对余弦相似度设定阈值剔除非 潜在相似 模型, 得到潜在相似 模型。 2.如权利 要求1所述的方法, 其特征在于, 所述Apriori增量快速更新算法是在数据集D 有新增Dn的情况下, 只遍历计算新增候选集的支持度计数, 原有候选集不再遍历计算其支 持度计数, 候选集再根据支持度阈值得 出频繁集。 3.如权利要求1所述的方法, 其特征在于, 所述Apriori增量快速更新算法的具体实现 流程如下: 首先, Apriori增量快速更新算法每一次遍历计算候选集的支持度计数后, 都将该支持 度计数存储起来, 然后, 当数据集有新增候选集时, 遍历计算新增候选集的支持度计数, 再 读取原有候选集的支持度计数, 将原有候选集的支持度计数与新增候选集的支持度计数相 加, 最后, 将合并后的候选集的支持度计数除以更新后的数据集总长度, 得出更新后的数据 集中各候选集的支持度, 候选集再根据支持度阈值得 出频繁集。 4.如权利要求3所述的方法, 其特征在于, 所述数据集的更新模型中, 设ssCnt为支持 度, lenOld为原数据集长度, lenNew为插入新增数据集后的新数据集长度, 通过 公式newCnt =ssCnt/(LenOld+LenNew), 重新计算原有频繁项集支持度, 原有非频繁项集与新增候选集 组成并集计算支持度, 将原有频繁项集支持度与并集计算支持度相加再作阈值判断得到新 频繁项集。 5.如权利要求1所述的方法, 其特征在于, 所述Apriori阈值快速更新算法是在支持度 阈值更新后, 只遍历计算因阈值更新而产生的新的候选集, 原本满足支持度阈值的候选集 不再做遍历计算, 候选集再根据新的支持度阈值得 出频繁集。 6.如权利要求5所述的方法, 其特征在于, 支持度阈值更新包括两种情况: 情况一, 新支 持度阈值比原支持度阈值大, 此时利用频繁项集的支持度计数, 通过遍历之间删除不满足 newSupport的频繁项集; 情况二, 新支持度阈值比原支持度阈值小, 此时重新计算频繁项集 newL1, 得到新增频繁项集L1 ′=newL1‑L1, 将满足新最小支持度newSupport的频繁项集Lk 分为三类: ①第一类频繁集 Lk1: 候选集通过apri ori_gen(L k1‑1)得出;权 利 要 求 书 1/2 页 2 CN 114297257 A 2②第二类频繁集 Lk2: 候选集通过apri ori_gen(L k2‑1′)得出; ③第三类频繁集 Lk3: 候选集通过apri ori_gen(L k3‑1,Lk3‑1′)得出; 分别针对这三类频繁集, 进行 处理, 其中apr iori_gen()函数用于计算频繁项集组合而 成所有可能的候选集。 7.如权利要求6所述的方法, 其特征在于, 对于类型 ①, 通过apriori_gen(Lk1‑1)‑Lk1的 方式修剪这部分候选集, 并计算剩余 候选数据集在数据集D中的支持度。 8.如权利要求6所述的方法, 其特征在于, 对于类型 ②, 直接计算候选集apriori_gen (Lk2‑1′)在数据集D中的支持度。 9.如权利要求6所述的方法, 其特征在于, 对于类型 ③, 拼接第一类频繁集Lk1和第二类 频繁集Lk2, 并通过“频繁项集任一子集必是频繁项集 ”原则检测候选集的子集是否为频繁 项集, 不是则修剪这部分候选集。 10.一种如权利要求1至9中任一项所述方法在相似性检索技 术领域中的应用。权 利 要 求 书 2/2 页 3 CN 114297257 A 3
专利 一种基于改进Apriori算法的相似模型检索方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 20:41:09
上传分享
举报
下载
原文档
(385.9 KB)
分享
友情链接
GA-T 1202-2022 交通技术监控成像补光装置通用技术条件.pdf
一种基于电源管理的芯片测试系统及方法.pdf
T-SDL 3.1—2021 10kV智能电缆系统技术规范 第1部分 导则.pdf
GB-T 21028-2007 信息安全技术 服务器安全技术要求.pdf
民航 MH-T 6050-2009 行李处理系统 带式输送机.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
SN-T 5152-2019 生活用纸中甲醛含量的测定方法 高效液相色谱法.pdf
GB-T 21063.3-2007 政务信息资源目录体系 第3部分:核心元数据.pdf
GB-T 32039-2015 石油化工企业节能项目经济评价方法.pdf
DB3301-T 71—2018 数字城管系统运维服务规范 杭州市.pdf
GB-T 42016-2022 信息安全技术网络音视频服务数据安全要求.pdf
GB 29743.1-2022 机动车冷却液 第1部分:燃油汽车发动机冷却液.pdf
GB-T 34027-2017 热连轧主传动十字轴式万向联轴器.pdf
GB-T 34336-2017 纳米孔气凝胶复合绝热制品.pdf
GB-T 33471-2016 全自动纸板袖套式裹包机.pdf
GB 42296-2022 电动自行车用充电器安全技术要求.pdf
数据产品交易标准化白皮书.pdf
TC260 网络安全标准实践指南 -网络数据分类分级指引 2021.pdf
T-GCHA 1.2—2018 定制家居产品 人造板定制衣柜 第2部分:原材料验收规范.pdf
GB-T 34969-2017 彩色激光打印机测试版.pdf
1
/
3
9
评价文档
赞助2元 点击下载(385.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。