专利 一种文本分类方法、装置及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111620184.8 (22)申请日 2021.12.28 (71)申请人绿盟科技集团股份有限公司地址 100089 北京市海淀区北洼路4 号益泰大厦5层申请人北京神州绿盟科技有限公司 (72)发明人杨晖　吴铁军　范敦球　赵光远　叶晓虎　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 代理人李海波 (51)Int.Cl. G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种文本分类方法、装置及电子设备 (57)摘要本申请实施例提供了一种文本分类方法、装置及电子设备，涉及网络安全技术领域。本申请中，基于目标文本的目标存储路径信息，以及日志文件中记录的各个历史文本各自对应的历史存储路径信息，在确定目标存储路径信息中，存在至少一个特有节点名称时，分别确定相应特有节点名称各自的字符转移概率所归属的字符转移概率区间，从而完成对目标文本进行文本分类。采用本申请，根据目标存储路径信息中，特有节点名称各自的字符转移概率所归属的字符转移概率区间，对目标文本进行文本分类，提高了文本分类的准确性。权利要求书3页说明书16页附图9页 CN 114398887 A 2022.04.26 CN 114398887 A 1.一种文本分类方法，其特征在于，包括：获取业务数据方发送的目标文本，以及记录所述目标文本的目标存储路径信息；其中，所述目标存储路径信息包括：至少一个目标路径节点及其各自的目标节点名称；获取日志文件中记录的各个历史文本各自对应的历史存储路径信息；其中，每个历史存储路径信息包括：至少一个历史路径节点及其各自的历史节点名称；若在获得的至少一个目标节点名称中，选取出与各个历史节点名称不同的至少一个特有节点名称，则分别确定所述至少一个特有节点名称各自的字符转移概率；其中，每个字符转移概率是根据相应特有节点名称的字符串中，每相邻两个字符的转移概率得到的；基于获得的至少一个字符转移概率所归属的字符转移概率区间，对所述目标文本进行文本分类。 2.如权利要求1所述的方法，其特征在于，所述获取业务数据方发送的目标文本之前：获取至少一个目标簇；其中，每个目标簇是对设定的未知样本集合二次聚类获得的，所述未知样本集合中包含的各个未知样本是业务数据方发送的；针对获得的至少一个目标簇，分别执行以下操作：分别确定一个目标簇内包含的各个未知样本各自对应的特征行为，与其他未知样本的特征行为之间的特征相似度，挑选出特征相似度满足预设相似度条件的未知样本，作为候选文本进行保存；所述获取业务数据方发送的目标文本，包括：从保存的各个候选文本中，选取一个候选文本作为所述目标文本。 3.如权利要求2所述的方法，其特征在于，所述获取至少一个目标簇，包括：基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间，获得至少一个候选簇；其中，每个临时簇是通过对所述未知样本集合初步聚类得到的；针对所述至少一个候选簇，分别执行以下步骤：若一个候选簇包含的各个未知样本均未关联相应标签，则将所述一个候选簇作为目标簇；若所述一个候选簇包含的各个未知样本关联至少一个标签，则确定所述至少一个标签对应的标签种类数量，并在确定所述标签种类数量归属于设定的标签种类数量区间时，将所述一个候选簇作为目标簇。 4.如权利要求3所述的方法，其特征在于，所述基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间，获得至少一个候选簇，包括：分别获取各个临时簇各自对应的初始特征行为数量，选取出属于设定特征数量区间的至少一个候选特征行为数量；对所述至少一个候选特征行为数量各自对应的临时簇，各自包含的各个未知样本添加标签，并将每个候选特征行为数量对应的临时簇作为一个候选簇。 5.如权利要求1 ‑4中任一项所述的方法，其特征在于，所述选取出与各个历史节点名称不同的至少一个特有节点名称，包括：获取日志文件中的白样本数据集以及黑样本数据集；其中，所述白样本数据集包括：至少一个正常样本及其各自对应的正常存储路径信息，每个正常存储路径信息包括：至少一个正常路径节点及其各自的历史节点名称，以及所述黑样本数据集包括：至少一个异常样本及其各自对应的异常存储路径信息，每个异常存储路径信息包括：至少一个异常路径节权　利　要　求　书 1/3 页 2 CN 114398887 A 2点及其各自的历史节点名称；基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值，从所述至少一个目标节点名称中，选取出与所述各个历史节点名称不同的至少一个特有节点名称；其中，所述黑白样本相似度评估值表征：相应目标节点名称同属于所述黑样本数据集和所述白样本数据集的概率。 6.如权利要求5所述的方法，其特征在于，所述基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值，从所述至少一个目标节点名称中，选取出与所述各个历史节点名称不同的至少一个特有节点名称，包括：针对所述至少一个目标节点名称，分别执行以下操作：基于所述一个目标节点名称与所述各个历史节点名称之间的名称相似度，挑选出满足预设第一概率条件的名称相似度作为所述一个目标节点名称归属于白样本数据集的第一概率，以及挑选出满足预设第二概率条件的名称相似度作为所述一个目标节点名称归属于黑样本数据集的第二概率；基于所述第一概率与所述第二概率，确定所述一个目标节点名称的黑白样本相似度评估值；在确定所述黑白样本相似度评估值不属于设定的相似度评估值区间时，将所述一个目标节点名称作为特有节点名称。 7.如权利要求1 ‑4中任一项所述的方法，其特征在于，所述基于获得的至少一个字符转移概率所归属的字符转移概率区间，对所述目标文本进行文本分类，包括：若所述至少一个字符转移概率中，存在不大于设定的第一字符转移概率阈值的字符转移概率，则将所述目标文本确定为垃圾文本；若所述至少一个字符转移概率均大于所述第一字符转移概率阈值，且存在小于设定的第二字符转移概率阈值的字符转移概率，则通过无意词判别模型，确定所述目标文本的文本类型；若所述至少一个字符转移概率均大于所述第二字符转移概率阈值，则将所述目标文本确定为正常文本。 8.如权利要求1 ‑4中任一项所述的方法，其特征在于，所述基于获得的至少一个字符转移概率所归属的字符转移概率区间，对所述目标文本进行文本分类之后，还包括：针对获得的各个正常文本，分别执行以下操作：获取一个正常文本的特征行为及其标签；在确定所述一个正常文本的特征行为属于恶意行为时，确定与所述一个正常文本的标签相同的至少一个未知样本均为恶意样本。 9.一种文本分类装置，其特征在于，包括：记录模块，用于获取业务数据方发送的目标文本，以及记录所述目标文本的目标存储路径信息；其中，所述目标存储路径信息包括：至少一个目标路径节点及其各自的目标节点名称；获取模块，用于获取日志文件中记录的各个历史文本各自对应的历史存储路径信息；其中，每个历史存储路径信息包括：至少一个历史路径节点及其各自的历史节点名称；处理模块，用于若在获得的至少一个目标节点名称中，选取出与各个历史节点名称不权　利　要　求　书 2/3 页 3 CN 114398887 A 3

专利 一种文本分类方法、装置及电子设备

专利一种文本分类方法、装置及电子设备