(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111478009.X
(22)申请日 2021.12.0 6
(71)申请人 广西师范大学
地址 541004 广西壮 族自治区桂林市七 星
区育才路15号
(72)发明人 叶帅 夏国恩 张显全
(74)专利代理 机构 桂林市持衡专利商标事务所
有限公司 45107
代理人 陈跃琳
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 30/00(2012.01)
G06K 9/62(2022.01)
(54)发明名称
基于混合采样的客户流失预测方法
(57)摘要
本发明公开一种基于混合采样的客户流失
预测方法, 首先对客户数据同时进行欠采样和过
采样: 在欠采样时, 通过现有的欠采样算法对分
类无帮助的样本。 在进行过采样时, 采用QCSOMTE
算法合成新的样本。 然后利用上述采用欠采样和
过采样所得到的数据对SVM进行监督学习, 得到
客户流失预测模 型。 最后利用该客户流失预测模
型即可预测客户属于流失客户还 是非流失客户。
本发明能够避免客户数据不平衡影响预测效果
的问题, 具有算法效率高和预测准确率高的特
点。
权利要求书2页 说明书4页
CN 114118614 A
2022.03.01
CN 114118614 A
1.基于混合采样的客户流失预测方法, 其特 征是, 包括步骤如下:
步骤1、 收集已知的流失客户和非流失客户的多属性数据, 并根据客户的类型在其多属
性数据上加上流失客户或非流失客户的标签, 以形成样本数据;
步骤2、 将标签为流失客户的样本数据归入少数类样本集中, 将标签为非流失客户的样
本数据归 入多数类样本集中;
步骤3、 对多数类样本集进行欠采样, 得到采样多数类样本集;
步骤4、 计算采样多数类样本集的样本数据个数与少数类样本集的样本数据个数的差
值, 并将该差值作为所需的合成样本个数P;
步骤5、 遍历少数类样本集的每个样本数据, 计算当前样本数据与少数类样本集中其他
样本数据的欧式距离, 并将当前样本数据及其欧式距离最近的Q个其他样本数据归入当前
样本数据的相似样本集; 其中Q 为设定的大于等于4的正整数;
步骤6、 遍历少数类样本集的每个样本数据, 从当前样本数据的相似样本集中随机选择
4个样本数据, 先计算这4个样本数据的质心, 再将质心分别与这4个样 本数据进 行合并得到
4个合成样本数据, 后将合成样本数据归 入合成样本数据集;
步骤7、 判断合成样本数据集的合成样本数据个数 是否等于合成样本个数P:
如果合成样本数据集的合成样本数据个数等于合成样本个数P, 则将合成样本数据集
的合成样本数据全部归 入到采样少数类样本集中;
如果合成样本数据集的合成样本数据个数大于合成样本个数P, 则从合成样本数据集
中随机选择P个合成样本数据归 入到采样少数类样本集中;
如果合成样本数据集的合成样本数据个数小于合成样本个数P, 则返回步骤6;
步骤8、 将采样多数类样本集和采样少数类样本集作为最终的训练集, 并将最终的训练
集送入到支持向量机中进行训练, 得到客户流失预测模型;
步骤9、 采集待预测客户的多属性数据, 并将其送入到客户流失预测模型中进行分类预
测, 以确定待预测客户属于流失客户还是非流失客户。
2.根据权利要求1所述的基于混合采样的客户流失预测方法, 其特征是, 步骤2中, 对多
数类样本集进行DBSCAN 欠采样或K ‑Means欠采样。
3.根据权利要求1所述的基于混合采样的客户流失预测方法, 其特征是, 步骤6 中, 质心
AC为:
式中, Aij表示第i个样本数据的第j个属性, i=1,2,3,4, j=1,2, …,n, n为样本数据的
属性个数。
4.根据权利要求1所述的基于混合采样的客户流失预测方法, 其特征是, 步骤6中, 第i
个样本数据的合成样本数据Ai‑new为:
Ai‑new=Ai+rand(0,1) ×(AC‑Ai)
式中, rand(0,1)为0到1之间的一个随机数, Ai为第i个样本数据, AC为质心, i=1,2,3,
4。
5.根据权利要求1所述的基于混合采样的客户流失预测方法, 其特征是, 步骤1和步骤9权 利 要 求 书 1/2 页
2
CN 114118614 A
2中, 多属性数据的属性个数n =3。权 利 要 求 书 2/2 页
3
CN 114118614 A
3
专利 基于混合采样的客户流失预测方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:07:30上传分享