专利 一种基于优化随机森林的缺陷报告严重程度预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633840.8 (22)申请日 2021.12.2 9 (71)申请人南通大学地址 226019 江苏省南通市崇川区啬园路9 号 (72)发明人陈翔　葛骅　陈雪娇　林浩　苏展　缪芸　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 代理人王毅 (51)Int.Cl. G06K 9/62(2022.01) G06Q 10/06(2012.01) (54)发明名称一种基于优化随机森林的缺陷报告严重程度预测方法 (57)摘要本发明属于软件质量保障技术领域，具体涉及一种基于优化随机森林的缺陷报告严重程度预测方法。本发明首先从项目所在的缺陷跟踪系统中，搜集历史缺陷报告并下载，对下载的数据集进行预处理，得到目标缺陷报告数据集；然后使用贝叶斯超参优化方法优化随机森林模型，获得最优的超参数，最后根据最优超参数，构建缺陷报告严重程度预测模型。该发明使用随机森林模型，因其内部集成多个基分类器，具有较强的模型泛化能力；利用贝叶斯超参优化方法可在预设的取值范围内找出最优超参数，进一步增强随机森林模型的泛化能力，提高模型的预测能力。权利要求书2页说明书6页附图1页 CN 114186644 A 2022.03.15 CN 114186644 A 1.一种基于优化随机森林的缺陷报告严重程度预测方法，其特征在于，包括以下步骤： (1)、通过项目所在的缺陷跟踪系统，抽取该项目历史缺陷报告的两个属性：描述信息 Summary和严重程度Severity，假设搜集到n个缺陷报告，构成缺陷报告的集合R＝(R1， R2， ...， Rn)，其中第i个缺陷报告为Ri＝＜Summary， Severity ＞； (2)、对所述缺陷报告的集合R中的描述信息Summary和严重程度Severity进行预处理，得到目标缺陷报告数据集RL ＝(RL1， RL2， ...， RLn)，其中第i个缺陷报告为RLi＝＜Presummary， Preseverity＞， Presummary表示预处理后的描述信息， Preseverity表示预处理后的严重程度； (3)、将所述目标缺陷报告数据集RL按照7∶ 3的比例划分为训练集和验证集； (4)、根据预设的超参数，所述超参数包括：基分类器个数和分类树的深度，利用训练集构建随机森林模型； (5)、利用验证集，采用所述随机森林模型进行预测，并计算平均绝对误差； (6)、根据所述预设的超参数和所述平均绝对误差，利用贝叶斯超参优化方法获得一个较优的超参数，将所述较优的超参数作为下一次预设超参数； (7)、重复步骤(4) ‑(6)K次，得到最优超参数； (8)、基于所述最优超参数和训练集，构建缺陷报告严重程度预测模型。 2.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法，其特征在于，所述步骤(2)具体包括如下步骤： (2‑1)、删除所述缺陷报告的集合R中严重程度Severity为normal 的数据，得到数据集 T； (2‑2)、缺陷报告严重程度为7类，从低到高分别为：第一类enhancement、第二类 trivial、第三类minor、第四类normal、第五类major、第六类critical和第七类blocker；对第一类enhancement、第二类trivial、第三类minor、第五类major、第六类critical和第七类blocker缺陷报告严重程度进行类别确定；若缺陷报告的严重程度为第七类blocker，则将类型取值程度置为1；若严重程度为第六类cr itical，则将类型取值设置为2；若严重程度为第五类major，则将类型取值设置为3；若严重程度为第三类minor，则将类型取值设置为 4；若严重程度为第二类trivial，则将类型取值设置为5；若严重程度为第一类 enhancement，则将类型取值设置为6；得到预处理后的严重程度Preseverity； (2‑3)、基于空格，将所述数据集T中描述信息Summary切割成单词、将所述单词中的大写字母转换为小写字母、删除所述单词中的符号，基于停用词列表移除所述单词中的停用词，对剩余单词进行词形还原； (2‑4)、基于Skip ‑gram词嵌入模型，将所述数据集T中的描述信息Summary表示为分布式向量，得到预处理后的描述信息Presummary； (2‑5)、根据所述预处理后的严重程度Preseverity和所述预处理后的描述信息Presummary，得到目标缺陷报告数据集。 3.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法，其特征在于，所述步骤(4)具体包括如下步骤： (4‑1)、预设一组超参数，所述超参数包括：基分类器个数和分类树的深度； (4‑2)、采用bagging方法对所述训练集进行有放回采样，其中未被采样的数据称为袋权　利　要　求　书 1/2 页 2 CN 114186644 A 2外数据； (4‑3)、使用基尼系数作为随机森林模型中分类树的分裂规则，使用袋外错误率选择特征属性，其中袋外错误率表示为： (4‑4)、基于所述分裂规则与袋外错误率，根据所述有放回采样所得的数据进行所述分类树的训练与构建； (4‑5)、重复(4 ‑2)至(4‑4)l次，建立 l个不同的基分类器； (4‑6)、使用多数投票法将所述 l个不同的基分类器组合，构建随机森林模型。 4.根据权利要求1所述的一种基于优化随机森林的缺陷报告严重程度预测方法，其特征在于，所述步骤(5)具体包括如下步骤： (5‑1)、利用验证集，采用所述随机森林模型进行预测，得到各缺陷报告严重程度预测值； (5‑2)、根据各缺陷报告严重程度实际值计算平均绝对误差，所述平均绝对误差计算公式如下：公式(1)中， MAE为平均绝对误差， m为所述验证集中包含的缺陷报告数量， yi为第i个缺陷报告严重程度实际值，为第i个缺陷报告严重程度预测值，变化范围为[0， Q ‑1]， Q为缺陷报告严重程度的个数。权　利　要　求　书 2/2 页 3 CN 114186644 A 3

专利 一种基于优化随机森林的缺陷报告严重程度预测方法

专利一种基于优化随机森林的缺陷报告严重程度预测方法