(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111456114.3
(22)申请日 2021.12.02
(71)申请人 阿里巴巴达摩院 (杭州) 科技有限公
司
地址 310023 浙江省杭州市余杭区五常街
道文一西路969号3幢5层516室
(72)发明人 何凯 杨帆 杨林晓 刘乐 孙亮
杨劲松
(74)专利代理 机构 北京同钧律师事务所 16 037
代理人 许怀远
(51)Int.Cl.
G06N 20/00(2019.01)
G06Q 10/04(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
业务对象的预测方法、 设备及存 储介质
(57)摘要
本申请提供一种业务对象 的预测方法、 设备
及存储介质, 其中方法包括: 获取待分析的业务
对象对应的特征; 将所述特征与规则学习模型中
的规则进行匹配, 根据匹配结果确定所述待分析
的业务对象是否满足要求, 和/或, 满足要求的原
因; 其中, 所述规则学习模型为基于列生成技术
和频繁模式树生成的规则学习模 型。 本申请可以
通过规则学习模型对待分析的业务对象是否满
足要求进行预测, 具有较强的可解释性, 能够有
效提高用户体验度, 建立用户对规则学习模型的
信任, 此外, 基于列生成技术和频繁模式树生成
的规则学习模型也可以有效提高规则学习的效
果, 满足不同场景、 不同维度数据的需求, 提高学
习和预测的整体效率。
权利要求书3页 说明书30页 附图8页
CN 114139725 A
2022.03.04
CN 114139725 A
1.一种业 务对象的预测方法, 其特 征在于, 包括:
获取待分析的业 务对象对应的特 征;
将所述特征与规则学习 模型中的规则进行匹配, 根据匹配结果确定所述待分析的业务
对象是否满足要求, 和/或, 满足要求的原因;
其中, 所述 规则学习模型为基于列生成技 术和频繁模式树 生成的规则学习模型。
2.根据权利要求1所述的方法, 其特 征在于, 还 包括:
获取训练样本集, 所述训练样本集包括正样本组和负样本组, 其中, 正样本包括满足要
求的业务对象对应的特 征, 所述负 样本包括 不满足要求的业 务对象对应的特 征;
根据所述训练样本集, 生成初始的多条规则, 每条规则包括至少一个特 征;
基于列生成技术不断添加新的规则, 直至得到规则学习模型; 其中, 列生成过程中, 基
于频繁模式树 生成新的规则。
3.根据权利要求2所述的方法, 其特征在于, 基于列生成技术不断添加新的规则, 直至
得到规则学习模型, 包括:
构建限制主问题, 所述限制主问题包括下述至少一项: 规则学习模型的准确度、 复杂
度、 重合度;
重复执行下述步骤, 直至没有新的规则可被添加: 基于现有规则求解所述限制主问题,
得到对偶变量; 根据得到的对偶变量, 基于频繁模式树 生成新的规则。
4.根据权利要求3所述的方法, 其特 征在于, 构建限制主问题, 包括:
根据现有规则的决策变量, 构建限制主问题; 每一规则对应的决策变量用于表示该规
则是否被采纳;
其中, 所述限制主问题的目标函数包括下述至少一项:
被采纳的规则覆盖的负样本数量和/或被采纳的规则没有覆盖的正样本数量, 用于表
征规则学习模型的准确度;
被采纳的规则多次覆盖的正样本的数量, 用于表征规则学习模型的重合度;
被采纳的规则的长度之和, 用于表征规则学习模型的复杂度。
5.根据权利要求4所述的方法, 其特征在于, 所述限制主问题中的每一项对应设置有系
数; 所述方法还 包括:
获取用户输入的准确度系数、 重合度系数、 复杂度系数中的至少一项;
相应的, 所述限制主问题通过用户输入的系数、 根据样本数量确定的系数、 默认设置的
系数中的至少一项构建。
6.根据权利要求3所述的方法, 其特征在于, 根据得到的对偶变量, 基于频繁模式树生
成新的规则, 包括:
通过任一规则 头构建对应频繁模式树, 根据对偶变量计算所述规则 头对应的检验数下
界, 以确定所述规则头是否需要被分析, 并针对需要被分析 的规则头对应的频繁模式树进
行递归分析, 找到的检验数最小的规则为所述 新的规则;
其中, 所述频繁模式树中, 节点用于表示特征, 所述规则头包括一个或多个特征; 所述
规则头对应的频繁模式树为根据包含所述规则头的正样本构建的频繁模式树; 所述规则头
对应的检验数下界用于表示所述规则头对应的频繁模式树中各路径规则对应的检验数下
界。权 利 要 求 书 1/3 页
2
CN 114139725 A
27.根据权利要求6所述的方法, 其特征在于, 通过任一规则头构建对应频繁模式树, 根
据对偶变量计算所述规则头对应的检验数下界, 以确定所述规则头是否需要被分析, 并针
对需要被分析的规则头对应的频繁模式树进 行递归分析, 找到的检验数最小的规则为所述
新的规则, 包括:
初始化最优检验数为0, 初始的规则头设置为空;
基于满足当前规则头的正样本构建初始频繁模式树, 并重复执行下述步骤, 直至正样
本组包含的规则被分析完毕:
根据当前规则 头对应的频繁模式树, 确定出现频率大于等于预设频率阈值的单特征节
点的集合, 对于集合中每一元素, 确定该元素与当前规则头构成的规则对应的检验数, 并在
所述对应的检验数小于所述 最优检验数时, 将所述 最优检验数 更新为所述对应的检验数;
对于所述集合中的每一元素, 计算所述元素对应的检验数下界, 若检验数下界大于等
于所述最优检验数, 则跳过分析所述元素, 反之则基于深度优先递归方法构建新的规则头
及对应的频繁模式树。
8.根据权利要求7所述的方法, 其特征在于, 计算所述元素对应的检验数下界, 若检验
数下界大于等于所述最优检验数, 则跳过分析所述元素, 反之则基于深度优先递归方法构
建新的规则头及对应的频繁模式树, 包括:
若所述元素与当前规则 头构成的规则在初始频繁模式树中所在的路径上, 从所述元素
出发沿深度方向还存在待分析 的节点, 则计算所述元素对应的检验数下界, 若检验数下界
大于等于所述 最优检验数, 则跳过分析 所述元素;
若检验数下界小于最优检验数, 则根据当前规则 头与所述元素构 成新的规则 头构建频
繁模式树;
若沿深度方向不存在待分析的节点, 则在初始频繁模式树中, 从所述元素退回查找待
分析的下一节点, 并基于下一节点对应的规则头, 构建频繁模式树。
9.根据权利要求7 所述的方法, 其特 征在于, 计算所述元 素对应的检验数 下界, 包括:
根据下述至少一项成本计算检验数 下界:
当前规则包 含的特征数量;
当前规则覆盖的正样本对应的对偶变量之和的负数;
以当前规则作为规则 头构建的频繁模式树中, 覆盖最少正样本的从根节点到叶子节点
的路径规则在正样本组中的支持度;
以当前规则作为规则 头构建的频繁模式树中, 覆盖最少负样本的从根节点到叶子节点
的路径规则在负 样本组中的支持度;
其中, 在计算所述元素对应的检验数下界时, 所述当前规则为所述元素与当前规则头
构成的规则。
10.根据权利要求1 ‑9任一项所述的方法, 其特征在于, 将所述特征与规则学习模型中
的规则进行匹配, 根据匹配结果确定所述待分析 的业务对象是否满足要求, 和/或, 满足要
求的原因, 包括:
若所述规则学习 模型中存在与所述待分析的业务对象对应的特征相匹配的规则, 则确
定所述待分析的业 务对象满足要求, 所述 业务对象满足要求的原因为所述相匹配的规则;
根据所述相匹配的规则中各个特征覆盖的正负样本的比例以及所述规则覆盖的正负权 利 要 求 书 2/3 页
3
CN 114139725 A
3
专利 业务对象的预测方法、设备及存储介质
文档预览
中文文档
42 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:06:37上传分享