公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111633840.8 (22)申请日 2021.12.2 9 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 陈翔 葛骅 陈雪娇 林浩 苏展 缪芸 (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 代理人 王毅 (51)Int.Cl. G06K 9/62(2022.01) G06Q 10/06(2012.01) (54)发明名称 一种基于优化随机森林的缺陷报告严重程 度预测方法 (57)摘要 本发明属于软件质量保障技术领域, 具体涉 及一种基于优化随机森林的缺陷报告严重程度 预测方法。 本发 明首先从项目所在的缺陷跟踪系 统中, 搜集历史缺陷报告并下载, 对下载的数据 集进行预处理, 得到目标缺陷报告数据集; 然后 使用贝叶斯超参优化方法优化随机森 林模型, 获 得最优的超参数, 最后根据最优超参数, 构建缺 陷报告严重程度预测模型。 该发 明使用随机森 林 模型, 因其内部集成多个基分类器, 具有较强的 模型泛化能力; 利用贝叶斯超参优化方法可在预 设的取值范围内找出最优超参数, 进一步增强随 机森林模型的泛化能力, 提高模型的预测能力。 权利要求书2页 说明书6页 附图1页 CN 114186644 A 2022.03.15 CN 114186644 A 1.一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 包括以下步骤: (1)、 通过项目所在的缺陷跟踪系统, 抽取该项目历史缺陷报告 的两个属性: 描述信息 Summary和严重程度Severity, 假设搜集到n个缺陷报告, 构成缺陷报告的集合R=(R1, R2, ..., Rn), 其中第i个缺陷报告为Ri=<Summary, Severity >; (2)、 对所述缺陷报告的集合R中的描述信息Summary和严重程度Severity进行预处理, 得到目标缺陷报告数据集RL =(RL1, RL2, ..., RLn), 其中第i个缺陷报告为RLi=<Presummary, Preseverity>, Presummary表示预处理后的描述信 息, Preseverity表示预处 理后的严重程度; (3)、 将所述目标缺陷报告数据集RL按照7∶ 3的比例划分为训练集和验证集; (4)、 根据预设的超参数, 所述超参数包括: 基分类器个数和分类树的深度, 利用训练集 构建随机森林模型; (5)、 利用验证集, 采用所述随机森林模型进行 预测, 并计算平均绝对误差; (6)、 根据 所述预设的超参数和所述平均绝对误差, 利用贝叶斯超参优化方法获得一个 较优的超参数, 将所述较优的超参数作为下一次预设超参数; (7)、 重复步骤(4) ‑(6)K次, 得到最优 超参数; (8)、 基于所述 最优超参数和训练集, 构建缺陷报告严重程度预测模型。 2.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(2)具体包括如下步骤: (2‑1)、 删除所述缺陷报告的集合R中严重程度Severity为normal 的数据, 得到数据集 T; (2‑2)、 缺陷报告严重程度为7类, 从低到高分别为: 第一类enhancement、 第二类 trivial、 第三类minor、 第四类normal、 第五类major、 第六类critical和第七类blocker; 对 第一类enhancement、 第 二类trivial、 第三类minor、 第五类major、 第六类critical和第七 类blocker缺陷报告严重程度进行类别确定; 若缺陷报告的严重程度为第七类blocker, 则 将类型取值程度置为1; 若严重程度为第六类cr itical, 则将类型取值设置为2; 若严重程度 为第五类major, 则将类型取值设置为3; 若严重程度为第三类minor, 则将类型取值设置为 4; 若严重程度为第二类trivial, 则将类型取值设置为5; 若严重程度为第一类 enhancement, 则将类型 取值设置为6; 得到预处 理后的严重程度Preseverity; (2‑3)、 基于空格, 将所述数据集T中描述信息Summary切割 成单词、 将所述单词中的大 写字母转换为小写字母、 删除所述单词中的符号, 基于停用 词列表移除所述单词中的停用 词, 对剩余单词进行词形还原; (2‑4)、 基于Skip ‑gram词嵌入模型, 将所述数据集T中的描述信息Summary表示为分布 式向量, 得到预处 理后的描述信息Presummary; (2‑5)、 根据所述预处理后的严重程度Preseverity和所述预处理后的描述信息Presummary, 得到目标缺陷报告数据集。 3.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(4)具体包括如下步骤: (4‑1)、 预设一组超参数, 所述超参数包括: 基分类 器个数和分类树的深度; (4‑2)、 采用bagging方法对所述训练集进行有放回采样, 其中未被采样的数据称为袋权 利 要 求 书 1/2 页 2 CN 114186644 A 2外数据; (4‑3)、 使用基尼系数作 为随机森林模型中分类树的分裂规则, 使用袋外错误率选择特 征属性, 其中袋外错 误率表示为: (4‑4)、 基于所述分裂规则与袋外错误率, 根据所述有放回采样所得的数据进行所述分 类树的训练与构建; (4‑5)、 重复(4 ‑2)至(4‑4)l次, 建立 l个不同的基分类 器; (4‑6)、 使用多数投票法将所述 l个不同的基分类 器组合, 构建随机森林模型。 4.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(5)具体包括如下步骤: (5‑1)、 利用验证集, 采用所述随机森林模型进行预测, 得到各缺陷报告严重程度预测 值; (5‑2)、 根据各缺陷报告严重程度实际值计算平均 绝对误差, 所述平均绝对误差计算公 式如下: 公式(1)中, MAE为平均绝对误差, m为所述验证集中包含的缺陷报告数量, yi为第i个缺 陷报告严重程度实际值, 为第i个缺 陷报告严重程度预测值, 变化范围为[0, Q ‑1], Q为缺 陷报告严重程度的个数。权 利 要 求 书 2/2 页 3 CN 114186644 A 3
专利 一种基于优化随机森林的缺陷报告严重程度预测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 20:40:50
上传分享
举报
下载
原文档
(574.4 KB)
分享
友情链接
GB-T 11836-2023 混凝土和钢筋混凝土排水管.pdf
GM-T 0094-2020 公钥密码应用技术体系框架规范.pdf
GB-T 34934-2017 机械电气安全 安全相关设备中的通信系统使用指南.pdf
GB-T 20319-2017 风力发电机组 验收规范.pdf
GB-T 24936-2010 全地形车 术语.pdf
T-CES 144—2022 变压器类产品用频域介电谱测试仪 校验导则.pdf
GB-T 39559.3-2020 城市轨道交通设施运营监测技术规范 第3部分:隧道.pdf
T-SIOT 023—2021 工业物联网安全网闸技术要求.pdf
GB-T 31950-2023 企业诚信管理体系 要求.pdf
GB-T 21064-2007 电子政务系统总体设计要求.pdf
信通院 物联网终端安全白皮书-2019.pdf
等保三级-安全技术-数据安全.doc
GB-T 33476.3-2016 党政机关电子公文格式规范 第3部分:实施指南.pdf
信通院 国内网络安全信息与事件管理类产品研究与测试报告-2021年.pdf
GB-T 42829-2023 量子保密通信应用基本要求.pdf
T-NAHIEM 93—2023 麻醉科建设与设备配置.pdf
GB-T 17697-2014 声学 风机和其它通风设备辐射入管道的声功率测定 管道法.pdf
T-GDNAS 021—2022 急性冠脉综合征介入治疗术后心脏康复护理.pdf
GB-T 24578-2015 硅片表面金属沾污的全反射X光荧光光谱测试方法.pdf
DB36-T 1369-2020 塔架在线监测技术规程 江西省.pdf
1
/
3
10
评价文档
赞助2元 点击下载(574.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。