公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111633840.8 (22)申请日 2021.12.2 9 (71)申请人 南通大学 地址 226019 江苏省南 通市崇川区啬园路9 号 (72)发明人 陈翔 葛骅 陈雪娇 林浩 苏展  缪芸  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 代理人 王毅 (51)Int.Cl. G06K 9/62(2022.01) G06Q 10/06(2012.01) (54)发明名称 一种基于优化随机森林的缺陷报告严重程 度预测方法 (57)摘要 本发明属于软件质量保障技术领域, 具体涉 及一种基于优化随机森林的缺陷报告严重程度 预测方法。 本发 明首先从项目所在的缺陷跟踪系 统中, 搜集历史缺陷报告并下载, 对下载的数据 集进行预处理, 得到目标缺陷报告数据集; 然后 使用贝叶斯超参优化方法优化随机森 林模型, 获 得最优的超参数, 最后根据最优超参数, 构建缺 陷报告严重程度预测模型。 该发 明使用随机森 林 模型, 因其内部集成多个基分类器, 具有较强的 模型泛化能力; 利用贝叶斯超参优化方法可在预 设的取值范围内找出最优超参数, 进一步增强随 机森林模型的泛化能力, 提高模型的预测能力。 权利要求书2页 说明书6页 附图1页 CN 114186644 A 2022.03.15 CN 114186644 A 1.一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 包括以下步骤: (1)、 通过项目所在的缺陷跟踪系统, 抽取该项目历史缺陷报告 的两个属性: 描述信息 Summary和严重程度Severity, 假设搜集到n个缺陷报告, 构成缺陷报告的集合R=(R1, R2, ..., Rn), 其中第i个缺陷报告为Ri=<Summary, Severity >; (2)、 对所述缺陷报告的集合R中的描述信息Summary和严重程度Severity进行预处理, 得到目标缺陷报告数据集RL =(RL1, RL2, ..., RLn), 其中第i个缺陷报告为RLi=<Presummary, Preseverity>, Presummary表示预处理后的描述信 息, Preseverity表示预处 理后的严重程度; (3)、 将所述目标缺陷报告数据集RL按照7∶ 3的比例划分为训练集和验证集; (4)、 根据预设的超参数, 所述超参数包括: 基分类器个数和分类树的深度, 利用训练集 构建随机森林模型; (5)、 利用验证集, 采用所述随机森林模型进行 预测, 并计算平均绝对误差; (6)、 根据 所述预设的超参数和所述平均绝对误差, 利用贝叶斯超参优化方法获得一个 较优的超参数, 将所述较优的超参数作为下一次预设超参数; (7)、 重复步骤(4) ‑(6)K次, 得到最优 超参数; (8)、 基于所述 最优超参数和训练集, 构建缺陷报告严重程度预测模型。 2.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(2)具体包括如下步骤: (2‑1)、 删除所述缺陷报告的集合R中严重程度Severity为normal 的数据, 得到数据集 T; (2‑2)、 缺陷报告严重程度为7类, 从低到高分别为: 第一类enhancement、 第二类 trivial、 第三类minor、 第四类normal、 第五类major、 第六类critical和第七类blocker; 对 第一类enhancement、 第 二类trivial、 第三类minor、 第五类major、 第六类critical和第七 类blocker缺陷报告严重程度进行类别确定; 若缺陷报告的严重程度为第七类blocker, 则 将类型取值程度置为1; 若严重程度为第六类cr itical, 则将类型取值设置为2; 若严重程度 为第五类major, 则将类型取值设置为3; 若严重程度为第三类minor, 则将类型取值设置为 4; 若严重程度为第二类trivial, 则将类型取值设置为5; 若严重程度为第一类 enhancement, 则将类型 取值设置为6; 得到预处 理后的严重程度Preseverity; (2‑3)、 基于空格, 将所述数据集T中描述信息Summary切割 成单词、 将所述单词中的大 写字母转换为小写字母、 删除所述单词中的符号, 基于停用 词列表移除所述单词中的停用 词, 对剩余单词进行词形还原; (2‑4)、 基于Skip ‑gram词嵌入模型, 将所述数据集T中的描述信息Summary表示为分布 式向量, 得到预处 理后的描述信息Presummary; (2‑5)、 根据所述预处理后的严重程度Preseverity和所述预处理后的描述信息Presummary, 得到目标缺陷报告数据集。 3.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(4)具体包括如下步骤: (4‑1)、 预设一组超参数, 所述超参数包括: 基分类 器个数和分类树的深度; (4‑2)、 采用bagging方法对所述训练集进行有放回采样, 其中未被采样的数据称为袋权 利 要 求 书 1/2 页 2 CN 114186644 A 2外数据; (4‑3)、 使用基尼系数作 为随机森林模型中分类树的分裂规则, 使用袋外错误率选择特 征属性, 其中袋外错 误率表示为: (4‑4)、 基于所述分裂规则与袋外错误率, 根据所述有放回采样所得的数据进行所述分 类树的训练与构建; (4‑5)、 重复(4 ‑2)至(4‑4)l次, 建立 l个不同的基分类 器; (4‑6)、 使用多数投票法将所述 l个不同的基分类 器组合, 构建随机森林模型。 4.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法, 其特 征在于, 所述 步骤(5)具体包括如下步骤: (5‑1)、 利用验证集, 采用所述随机森林模型进行预测, 得到各缺陷报告严重程度预测 值; (5‑2)、 根据各缺陷报告严重程度实际值计算平均 绝对误差, 所述平均绝对误差计算公 式如下: 公式(1)中, MAE为平均绝对误差, m为所述验证集中包含的缺陷报告数量, yi为第i个缺 陷报告严重程度实际值, 为第i个缺 陷报告严重程度预测值, 变化范围为[0, Q ‑1], Q为缺 陷报告严重程度的个数。权 利 要 求 书 2/2 页 3 CN 114186644 A 3

.PDF文档 专利 一种基于优化随机森林的缺陷报告严重程度预测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于优化随机森林的缺陷报告严重程度预测方法 第 1 页 专利 一种基于优化随机森林的缺陷报告严重程度预测方法 第 2 页 专利 一种基于优化随机森林的缺陷报告严重程度预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:40:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。