(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111455856.4
(22)申请日 2021.12.01
(71)申请人 南京信息 工程大学
地址 224002 江苏省盐城市 盐南高新区新
河街道文港南路10 5号
(72)发明人 刘文军 尤欢 黄辉 白雪
陈子涵 杨旻荟 蒋松言 温宇航
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
代理人 董建林
(51)Int.Cl.
G16H 50/30(2018.01)
G06Q 10/04(2012.01)
G06N 20/00(2019.01)
G06K 9/62(2022.01)
(54)发明名称
基于动态信息价值准则和集成学习的动脉
粥样硬化 风险预测方法
(57)摘要
本发明为基于动态信息价值准则和集成学
习的动脉粥样硬化风险预测方法, 公开了所述方
法包括: 基于动态信息价值准则对采集的数据集
进行筛选, 分为最优特征集和残留特征集; 基于
机器学习算法将最优特征集与残留特征集作为
基分类器A、 基分类器B; 根据基分类器A、 基分类
器B建立预测模型A和预测模型B; 将最优特征集
和残留特征集输入预测模 型A和预测模型B, 将所
得到的预测结果加权集成, 输出最终集成学习预
测结果, 本发 明在使用机器学习算法进行动脉粥
样硬化风险预测的基础上, 由模 型预测效果优劣
来进行特征筛选, 挑选出数据冗余度低、 有代表
性的特征, 考虑到了更为优秀的特征、 提高了模
型预测效果。
权利要求书3页 说明书6页 附图2页
CN 114388129 A
2022.04.22
CN 114388129 A
1.基于动态信息价值准则和集成学习的动脉粥样硬化风险预测方法, 其特征在于, 所
述方法包括:
基于动态信息价 值准则对采集的数据集进行筛 选, 分为最优特征集和残留特 征集;
基于机器学习算法将最优特 征集与残留特 征集作为基分类 器A、 基分类 器B;
根据基分类 器A、 基分类 器B建立预测模型A和预测模型B;
将最优特征集和残留特征集输入预测模型A和预测模型B, 将所得到的预测结果加权集
成, 输出最终集成学习预测结果。
2.根据权利要求1所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测
方法, 其特 征在于, 所述数据集采集的方法包括:
选择有关引发动脉粥样硬化的因素作为原始特征集, 并采集有动脉粥样硬化症状及健
康人员样本作为动脉粥样硬化 风险组与对照组, 构成训练样本集并保留测试集。
3.根据权利要求2所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测
方法, 其特 征在于, 所述动态信息价 值准则包括 步骤:
基于机器学习算法, 将样本集输入预先构建的动脉粥样硬化预测模型, 计算出KS统计
量;
通过KS统计量 来衡量模型的整体预测效果;
基于原始特征集计算各特征对于目标变量是否有动脉粥样硬化风险的信息价值指标
IV;
选择最大的IV值特 征作为中心特 征, 将其从原 始特征集中纳入中心特 征集中;
响应于原 始特征集中特 征不数量大于 0, 建立预测模型;
计算剩余特征对中心特征的IV值, 将对中心特征IV值最高的特征移出原始特征集, 纳
入残留特 征集中;
将中心特征集与筛去残留特征的原始特征集合并为联合特征集, 基于机器学习算法,
建立联合特 征集与目标变量的动脉粥样硬化预测模型;
比较各联合特征集所构建的动脉粥样硬化预测模型KS统计量结果, 选择最优KS值组,
将其作为 最优特征集;
输出最优特 征集, 完成基于动态信息价 值准则的特 征筛选。
4.根据权利要求3所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测
方法, 其特 征在于, 所述KS值利用TPR、 FPR两个指标指出最优划分阈值, 即:
KSmax=max(TPR ‑FPR)
其纵坐标为false positive rate(FPR)、 true positive rate(TPR)即负类样本中被
判定为正类的比例、 正类样本中被判定为 正类的比例, 即误纳率 为:
误拒率为:
5.根据权利要求1所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测权 利 要 求 书 1/3 页
2
CN 114388129 A
2方法, 其特 征在于, IV值的计算是基于证据权 重WOE值:
首先需要对变量进行分箱处 理; 分箱后, 对第i箱, WOE值的计算公式如下:
其中, postivei和negativei分别表示第i箱中正、 负样本的个数, postiveT和negativeT
分别表示所有数据中正、 负 样本的总个数。
6.根据权利要求5所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测
方法, 其特 征在于, 所述 IV值的计算方法包括:
首先基于证据权重WOE值, 再引入IV值来评估每个分箱的相对贡献度, 得到IV值计算公
式如下:
7.根据权利要求1所述的基于动态信息价值准则和集成学习的动脉粥样硬化风险预测
方法, 其特 征在于, 所述测模型A和预测模型B的加权计算方法如下:
设样本数据
其中
表示第i样本中的p个协变量, Yi∈{1,
2,...,k}(k≥2)表 示第i个样 本对应的因变量取值, 且有类别的个数为k, 而n则表 示样本数
量,
则, 预测模型A所用的协变量 为
且有s≤p;
预测模型B所用的协变量 为
且有s≤p;
基于香农信息熵公式, 计算得到基分类 器A和基分类 器B的信息熵公式分别为:
令X=(x1,x2,K,xn)表示一个贝叶斯网络中所有变量的集合, 令parent(xi)表示变量xi
对应的节点在 贝叶斯网络中的 “父节点”, 则为可以得到整个贝叶斯网络中变量的联合分布
概率为:
根据公式的信息熵, 确定 两个模型的熵权为:
权 利 要 求 书 2/3 页
3
CN 114388129 A
3
专利 基于动态信息价值准则和集成学习的动脉粥样硬化风险预测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:07:04上传分享