(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111620184.8
(22)申请日 2021.12.28
(71)申请人 绿盟科技 集团股份有限公司
地址 100089 北京市海淀区北洼路4 号益泰
大厦5层
申请人 北京神州绿盟科技有限公司
(72)发明人 杨晖 吴铁军 范敦球 赵光远
叶晓虎
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
代理人 李海波
(51)Int.Cl.
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种文本分类方法、 装置及电子设备
(57)摘要
本申请实施例提供了一种文本 分类方法、 装
置及电子设备, 涉及网络安全技术领域。 本申请
中, 基于目标文本的目标存储路径信息, 以及日
志文件中记录的各个历史文本各自对应的历史
存储路径信息, 在确定目标存储路径信息中, 存
在至少一个特有节点名称时, 分别确定相应特有
节点名称各自的字符转移概率所归属的字符转
移概率区间, 从而完成对目标文本进行文本分
类。 采用本申请, 根据目标存储路径信息中, 特有
节点名称各自的字符转移概率所归属的字符转
移概率区间, 对目标文本进行文本分类, 提高了
文本分类的准确性。
权利要求书3页 说明书16页 附图9页
CN 114398887 A
2022.04.26
CN 114398887 A
1.一种文本分类方法, 其特 征在于, 包括:
获取业务数据 方发送的目标文本, 以及记录所述目标文本的目标存储路径信 息; 其中,
所述目标存 储路径信息包括: 至少一个目标路径 节点及其各自的目标节点名称;
获取日志文件中记录的各个历史文本各自对应的历史存储路径信息; 其中, 每个历史
存储路径信息包括: 至少一个历史路径 节点及其各自的历史节点名称;
若在获得的至少一个目标节点名称中, 选取出与 各个历史节点名称不同的至少一个特
有节点名称, 则分别确定所述至少一个特有节点名称各自的字符转移 概率; 其中, 每个字符
转移概率是根据相应特有节点名称的字符串中, 每相邻两个字符的转移概 率得到的;
基于获得的至少一个字符转移概率所归属的字符转移概率 区间, 对所述目标文本进行
文本分类。
2.如权利要求1所述的方法, 其特 征在于, 所述获取业 务数据方发送的目标文本之前:
获取至少一个目标簇; 其中, 每个目标簇是对设定的未知样本集合二 次聚类获得的, 所
述未知样本集 合中包含的各个未知样本是业 务数据方发送的;
针对获得的至少一个目标簇, 分别执行以下操作: 分别确定一个目标簇内包含的各个
未知样本各自对应的特征行为, 与其他未知样本的特征行为之间的特征相似度, 挑选出特
征相似度满足预设相似度条件的未知样本, 作为 候选文本进行保存;
所述获取业 务数据方发送的目标文本, 包括:
从保存的各个候选文本中, 选取一个候选文本作为所述目标文本 。
3.如权利要求2所述的方法, 其特 征在于, 所述获取至少一个目标簇, 包括:
基于各个临时簇各自对应的初始特征行为数量所归属的特征数量 区间, 获得至少一个
候选簇; 其中, 每 个临时簇是通过对所述未知样本集 合初步聚类得到的;
针对所述至少一个候选 簇, 分别执 行以下步骤:
若一个候选簇包含的各个未知样本均未关联相应标签, 则将所述一个候选簇作为目标
簇;
若所述一个候选簇包含的各个未知样本关联至少一个标签, 则确定所述至少一个标签
对应的标签种类数量, 并在确定所述标签种类数量归属于设定的标签种类数量区间时, 将
所述一个候选 簇作为目标簇 。
4.如权利要求3所述的方法, 其特征在于, 所述基于各个临时簇各自对应的初始特征行
为数量所归属的特 征数量区间, 获得至少一个候选 簇, 包括:
分别获取各个临时簇各自对应的初始特征行为数量, 选取出属于设定特征数量 区间的
至少一个候选特 征行为数量;
对所述至少一个候选特征行为数量各自对应的临时簇, 各自包含的各个未知样本添加
标签, 并将每 个候选特 征行为数量对应的临时簇作为 一个候选 簇。
5.如权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述选取出与各个历史节点名称
不同的至少一个特有节点名称, 包括:
获取日志文件中的白样本数据集以及黑样本数据集; 其中, 所述白样本数据集包括: 至
少一个正常样本及其各自对应的正常存储路径信息, 每个正常存储路径信息包括: 至少一
个正常路径节点及其各自的历史节点名称, 以及所述黑样本数据集包括: 至少一个异常样
本及其各自对应的异常存储路径信息, 每个异常存储路径信息包括: 至少一个异常路径节权 利 要 求 书 1/3 页
2
CN 114398887 A
2点及其各自的历史节点名称;
基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值, 从所述至少一个
目标节点名称中, 选取出与所述各个历史节点名称不同的至少一个特有节点名称; 其中, 所
述黑白样本相似度评估值表征: 相应目标节点名称同属于所述黑样本数据集和所述白样本
数据集的概 率。
6.如权利要求5所述的方法, 其特征在于, 所述基于所述至少一个目标节点名称各自对
应的黑白样本相似度评估值, 从所述至少一个目标节点名称 中, 选取出与所述各个历史节
点名称不同的至少一个特有节点名称, 包括:
针对所述至少一个目标节点名称, 分别执 行以下操作:
基于所述一个目标节点名称与所述各个历史节点名称之间的名称相似度, 挑选出满足
预设第一概率条件的名称相似度作为所述一个目标节点名称归属于白样本数据集的第一
概率, 以及挑选出满足预设第二概率条件的名称相似度作为所述一个目标节点名称归属于
黑样本数据集的第二 概率;
基于所述第 一概率与 所述第二概率, 确定所述一个目标节点名称的黑白样本相似度评
估值;
在确定所述黑白样本相似度评估值不属于设定的相似度评估值 区间时, 将所述一个目
标节点名称作为特有节点名称。
7.如权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述基于获得的至少一个字符转
移概率所归属的字符转移概 率区间, 对所述目标文本进行文本分类, 包括:
若所述至少一个字符转移概率中, 存在不大于设定的第 一字符转移概率阈值的字符转
移概率, 则将所述目标文本确定为垃圾文本;
若所述至少一个字符转移概率均 大于所述第 一字符转移概率阈值, 且存在小于设定的
第二字符转移概率阈值的字符转移概率, 则通过无意词判别模型, 确定所述 目标文本的文
本类型;
若所述至少一个字符转移概率均 大于所述第 二字符转移概率阈值, 则将所述目标文本
确定为正常文本 。
8.如权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述基于获得的至少一个字符转
移概率所归属的字符转移概 率区间, 对所述目标文本进行文本分类之后, 还 包括:
针对获得的各个正常文本, 分别执 行以下操作:
获取一个正常文本的特 征行为及其标签;
在确定所述一个正常文本的特征行为属于恶意行为 时, 确定与 所述一个正常文本的标
签相同的至少一个未知样本均为恶意样本 。
9.一种文本分类装置, 其特 征在于, 包括:
记录模块, 用于获取业务数据方发送的目标文本, 以及记录所述目标文本的目标存储
路径信息; 其中, 所述目标存储路径信息包括: 至少一个目标路径节点及其各自的目标节 点
名称;
获取模块, 用于获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;
其中, 每个历史存 储路径信息包括: 至少一个历史路径 节点及其各自的历史节点名称;
处理模块, 用于若在获得的至少一个目标节点名称中, 选取出与各个历史节点名称不权 利 要 求 书 2/3 页
3
CN 114398887 A
3
专利 一种文本分类方法、装置及电子设备
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:42:07上传分享