专利 基于混合采样的客户流失预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111478009.X (22)申请日 2021.12.0 6 (71)申请人广西师范大学地址 541004 广西壮族自治区桂林市七星区育才路15号 (72)发明人叶帅　夏国恩　张显全　 (74)专利代理机构桂林市持衡专利商标事务所有限公司 45107 代理人陈跃琳 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 30/00(2012.01) G06K 9/62(2022.01) (54)发明名称基于混合采样的客户流失预测方法 (57)摘要本发明公开一种基于混合采样的客户流失预测方法，首先对客户数据同时进行欠采样和过采样：在欠采样时，通过现有的欠采样算法对分类无帮助的样本。在进行过采样时，采用QCSOMTE 算法合成新的样本。然后利用上述采用欠采样和过采样所得到的数据对SVM进行监督学习，得到客户流失预测模型。最后利用该客户流失预测模型即可预测客户属于流失客户还是非流失客户。本发明能够避免客户数据不平衡影响预测效果的问题，具有算法效率高和预测准确率高的特点。权利要求书2页说明书4页 CN 114118614 A 2022.03.01 CN 114118614 A 1.基于混合采样的客户流失预测方法，其特征是，包括步骤如下：步骤1、收集已知的流失客户和非流失客户的多属性数据，并根据客户的类型在其多属性数据上加上流失客户或非流失客户的标签，以形成样本数据；步骤2、将标签为流失客户的样本数据归入少数类样本集中，将标签为非流失客户的样本数据归入多数类样本集中；步骤3、对多数类样本集进行欠采样，得到采样多数类样本集；步骤4、计算采样多数类样本集的样本数据个数与少数类样本集的样本数据个数的差值，并将该差值作为所需的合成样本个数P；步骤5、遍历少数类样本集的每个样本数据，计算当前样本数据与少数类样本集中其他样本数据的欧式距离，并将当前样本数据及其欧式距离最近的Q个其他样本数据归入当前样本数据的相似样本集；其中Q 为设定的大于等于4的正整数；步骤6、遍历少数类样本集的每个样本数据，从当前样本数据的相似样本集中随机选择 4个样本数据，先计算这4个样本数据的质心，再将质心分别与这4个样本数据进行合并得到 4个合成样本数据，后将合成样本数据归入合成样本数据集；步骤7、判断合成样本数据集的合成样本数据个数是否等于合成样本个数P：如果合成样本数据集的合成样本数据个数等于合成样本个数P，则将合成样本数据集的合成样本数据全部归入到采样少数类样本集中；如果合成样本数据集的合成样本数据个数大于合成样本个数P，则从合成样本数据集中随机选择P个合成样本数据归入到采样少数类样本集中；如果合成样本数据集的合成样本数据个数小于合成样本个数P，则返回步骤6；步骤8、将采样多数类样本集和采样少数类样本集作为最终的训练集，并将最终的训练集送入到支持向量机中进行训练，得到客户流失预测模型；步骤9、采集待预测客户的多属性数据，并将其送入到客户流失预测模型中进行分类预测，以确定待预测客户属于流失客户还是非流失客户。 2.根据权利要求1所述的基于混合采样的客户流失预测方法，其特征是，步骤2中，对多数类样本集进行DBSCAN 欠采样或K ‑Means欠采样。 3.根据权利要求1所述的基于混合采样的客户流失预测方法，其特征是，步骤6 中，质心 AC为：式中， Aij表示第i个样本数据的第j个属性， i＝1,2,3,4， j＝1,2, …,n， n为样本数据的属性个数。 4.根据权利要求1所述的基于混合采样的客户流失预测方法，其特征是，步骤6中，第i 个样本数据的合成样本数据Ai‑new为： Ai‑new＝Ai+rand(0,1) ×(AC‑Ai) 式中， rand(0,1)为0到1之间的一个随机数， Ai为第i个样本数据， AC为质心， i＝1,2,3, 4。 5.根据权利要求1所述的基于混合采样的客户流失预测方法，其特征是，步骤1和步骤9权　利　要　求　书 1/2 页 2 CN 114118614 A 2中，多属性数据的属性个数n ＝3。权　利　要　求　书 2/2 页 3 CN 114118614 A 3

专利 基于混合采样的客户流失预测方法

专利基于混合采样的客户流失预测方法