专利 业务对象的预测方法、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111456114.3 (22)申请日 2021.12.02 (71)申请人阿里巴巴达摩院（杭州）科技有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层516室 (72)发明人何凯　杨帆　杨林晓　刘乐　孙亮　杨劲松　 (74)专利代理机构北京同钧律师事务所 16 037 代理人许怀远 (51)Int.Cl. G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 50/06(2012.01) (54)发明名称业务对象的预测方法、设备及存储介质 (57)摘要本申请提供一种业务对象的预测方法、设备及存储介质，其中方法包括：获取待分析的业务对象对应的特征；将所述特征与规则学习模型中的规则进行匹配，根据匹配结果确定所述待分析的业务对象是否满足要求，和/或，满足要求的原因；其中，所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。本申请可以通过规则学习模型对待分析的业务对象是否满足要求进行预测，具有较强的可解释性，能够有效提高用户体验度，建立用户对规则学习模型的信任，此外，基于列生成技术和频繁模式树生成的规则学习模型也可以有效提高规则学习的效果，满足不同场景、不同维度数据的需求，提高学习和预测的整体效率。权利要求书3页说明书30页附图8页 CN 114139725 A 2022.03.04 CN 114139725 A 1.一种业务对象的预测方法，其特征在于，包括：获取待分析的业务对象对应的特征；将所述特征与规则学习模型中的规则进行匹配，根据匹配结果确定所述待分析的业务对象是否满足要求，和/或，满足要求的原因；其中，所述规则学习模型为基于列生成技术和频繁模式树生成的规则学习模型。 2.根据权利要求1所述的方法，其特征在于，还包括：获取训练样本集，所述训练样本集包括正样本组和负样本组，其中，正样本包括满足要求的业务对象对应的特征，所述负样本包括不满足要求的业务对象对应的特征；根据所述训练样本集，生成初始的多条规则，每条规则包括至少一个特征；基于列生成技术不断添加新的规则，直至得到规则学习模型；其中，列生成过程中，基于频繁模式树生成新的规则。 3.根据权利要求2所述的方法，其特征在于，基于列生成技术不断添加新的规则，直至得到规则学习模型，包括：构建限制主问题，所述限制主问题包括下述至少一项：规则学习模型的准确度、复杂度、重合度；重复执行下述步骤，直至没有新的规则可被添加：基于现有规则求解所述限制主问题，得到对偶变量；根据得到的对偶变量，基于频繁模式树生成新的规则。 4.根据权利要求3所述的方法，其特征在于，构建限制主问题，包括：根据现有规则的决策变量，构建限制主问题；每一规则对应的决策变量用于表示该规则是否被采纳；其中，所述限制主问题的目标函数包括下述至少一项：被采纳的规则覆盖的负样本数量和/或被采纳的规则没有覆盖的正样本数量，用于表征规则学习模型的准确度；被采纳的规则多次覆盖的正样本的数量，用于表征规则学习模型的重合度；被采纳的规则的长度之和，用于表征规则学习模型的复杂度。 5.根据权利要求4所述的方法，其特征在于，所述限制主问题中的每一项对应设置有系数；所述方法还包括：获取用户输入的准确度系数、重合度系数、复杂度系数中的至少一项；相应的，所述限制主问题通过用户输入的系数、根据样本数量确定的系数、默认设置的系数中的至少一项构建。 6.根据权利要求3所述的方法，其特征在于，根据得到的对偶变量，基于频繁模式树生成新的规则，包括：通过任一规则头构建对应频繁模式树，根据对偶变量计算所述规则头对应的检验数下界，以确定所述规则头是否需要被分析，并针对需要被分析的规则头对应的频繁模式树进行递归分析，找到的检验数最小的规则为所述新的规则；其中，所述频繁模式树中，节点用于表示特征，所述规则头包括一个或多个特征；所述规则头对应的频繁模式树为根据包含所述规则头的正样本构建的频繁模式树；所述规则头对应的检验数下界用于表示所述规则头对应的频繁模式树中各路径规则对应的检验数下界。权　利　要　求　书 1/3 页 2 CN 114139725 A 27.根据权利要求6所述的方法，其特征在于，通过任一规则头构建对应频繁模式树，根据对偶变量计算所述规则头对应的检验数下界，以确定所述规则头是否需要被分析，并针对需要被分析的规则头对应的频繁模式树进行递归分析，找到的检验数最小的规则为所述新的规则，包括：初始化最优检验数为0，初始的规则头设置为空；基于满足当前规则头的正样本构建初始频繁模式树，并重复执行下述步骤，直至正样本组包含的规则被分析完毕：根据当前规则头对应的频繁模式树，确定出现频率大于等于预设频率阈值的单特征节点的集合，对于集合中每一元素，确定该元素与当前规则头构成的规则对应的检验数，并在所述对应的检验数小于所述最优检验数时，将所述最优检验数更新为所述对应的检验数；对于所述集合中的每一元素，计算所述元素对应的检验数下界，若检验数下界大于等于所述最优检验数，则跳过分析所述元素，反之则基于深度优先递归方法构建新的规则头及对应的频繁模式树。 8.根据权利要求7所述的方法，其特征在于，计算所述元素对应的检验数下界，若检验数下界大于等于所述最优检验数，则跳过分析所述元素，反之则基于深度优先递归方法构建新的规则头及对应的频繁模式树，包括：若所述元素与当前规则头构成的规则在初始频繁模式树中所在的路径上，从所述元素出发沿深度方向还存在待分析的节点，则计算所述元素对应的检验数下界，若检验数下界大于等于所述最优检验数，则跳过分析所述元素；若检验数下界小于最优检验数，则根据当前规则头与所述元素构成新的规则头构建频繁模式树；若沿深度方向不存在待分析的节点，则在初始频繁模式树中，从所述元素退回查找待分析的下一节点，并基于下一节点对应的规则头，构建频繁模式树。 9.根据权利要求7 所述的方法，其特征在于，计算所述元素对应的检验数下界，包括：根据下述至少一项成本计算检验数下界：当前规则包含的特征数量；当前规则覆盖的正样本对应的对偶变量之和的负数；以当前规则作为规则头构建的频繁模式树中，覆盖最少正样本的从根节点到叶子节点的路径规则在正样本组中的支持度；以当前规则作为规则头构建的频繁模式树中，覆盖最少负样本的从根节点到叶子节点的路径规则在负样本组中的支持度；其中，在计算所述元素对应的检验数下界时，所述当前规则为所述元素与当前规则头构成的规则。 10.根据权利要求1 ‑9任一项所述的方法，其特征在于，将所述特征与规则学习模型中的规则进行匹配，根据匹配结果确定所述待分析的业务对象是否满足要求，和/或，满足要求的原因，包括：若所述规则学习模型中存在与所述待分析的业务对象对应的特征相匹配的规则，则确定所述待分析的业务对象满足要求，所述业务对象满足要求的原因为所述相匹配的规则；根据所述相匹配的规则中各个特征覆盖的正负样本的比例以及所述规则覆盖的正负权　利　要　求　书 2/3 页 3 CN 114139725 A 3

专利 业务对象的预测方法、设备及存储介质

专利业务对象的预测方法、设备及存储介质