专利 一种文本识别脱敏方法及其系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111640408.1 (22)申请日 2021.12.2 9 (71)申请人电子科技大学广东电子信息工程研究院地址 523000 广东省东莞市松山湖高新技术产业开发区总部二路17号 (72)发明人张宏莉　韩培义　叶麟　余翔湛　李东　于海宁　方滨兴　林华娟　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 代理人潘俊达　郭宝煊 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/117(2020.01)G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称一种文本识别脱敏方法及其系统 (57)摘要本发明公开了一种文本识别脱敏方法及其系统，该方法包括：获取待识别文本，将待识别文本拆分为多个句子，再将句子分词为多个字词；将待识别文本的每个字词转换为对应的向量；将向量输入至Bert模型， Bert模型将向量转换为词表示向量，并对词表示向量进行分类标注；将标注后的词表示向量输入条件随机场，条件随机场基于标注之间的关联依赖关系进行计算，得到全局最优标注序列；对标注为敏感实体的字词进行脱敏操作。本发明能够做到并发执行，同时提取字词在句子中的关系特征，进而更全面反映句子语义，又能根据句子上下文获取词义，从而避免歧义出现，此外，能够针对不同类别的敏感实体进行不同的脱敏操作。权利要求书2页说明书5页附图1页 CN 114298035 A 2022.04.08 CN 114298035 A 1.一种文本识别脱敏方法，其特征在于，包括：步骤1、获取待识别文本，将所述待识别文本拆分为多个句子，再将所述句子分词为多个字词；步骤2、将所述待识别文本的每个所述字词转换为对应的向量；步骤3、将所述向量输入至Bert模型，所述Bert模型将所述向量转换为词表示向量，并对所述词表示向量进行分类标注；步骤4、将标注后的所述词表示向量输入条件随机场，所述条件随机场基于标注之间的关联依赖关系进行计算，得到全局最优标注序列；步骤5、对标注为敏感实体的所述字词进行脱敏操作。 2.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤3中，所述Bert模型是采用以下方式进行训练获得的：步骤3‑1、获取包含敏感实体的待识别文本，建立文本数据集；步骤3‑2、将所述待识别文本进行分词，并对敏感实体进行分类标注，构建训练样本；步骤3‑3、使用所述训练样本对所述Bert模型进行预训练，得到训练好的所述Bert模型。 3.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤1中，所述句子为英文句子时，使用WordPiece分词方法将切分为细粒度的所述字词，所述句子为中文句子时，直接将所述中文句子的进行单字拆分。 4.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤2中，所述向量为词向量、段向量与位置向量的叠加和。 5.根据权利要求2所述的文本识别脱敏方法，其特征在于，在所述步骤3中，将每个所述字词标注为 “B‑X”、“I‑X”、“O” “E‑X”或“S”，其中，所述 “B”为所述敏感实体开始位置，所述 “I”为所述敏感实体中间位置，所述 “O”为所述敏感实体以外的字词，所述 “E”为所述敏感实体结束位置，所述 “S”为单个实体，所述 “X”为标注所述敏感实体所属类型。 6.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤4中，将所述词表示向量的序列作为观测序列，将所述标注的序列作为标记序列，计算所述观测序列对应的所述标记序列的第一概率，并对所述第一概率进行归一化，得到所述第二概率，所述第二概率的值最大的所述标注序列即为最优的所述标注序列。 7.根据权利要求6所述的文本识别脱敏方法，其特征在于，所述观测序列对应的所述标记序列的第一概率的计算公式如下： M为观测序列， K为标注序列， i为观测序列中第i个字词， A是转换矩阵， Pi,Ki为第i个字词的第Ki个标注的预测概率值， Ki为第i个字词的标注序列，所述Ki‑1为第i‑1个字词的标注序列， n∈N，且n≥1。 8.根据权利要求7所述的文本识别脱敏方法，其特征在于，将所述score(M∣ K)的值利用 Softmax进行归一化得到最后的概率值，计算所述第二概率P(K∣ M)公式如下：权　利　要　求　书 1/2 页 2 CN 114298035 A 2K'为任意一个所述标注序列。 9.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤5中，所述脱敏操作包括替换、擦除、数据泛化、格式保全加密。 10.一种文本识别脱敏系统，其特征在于，包括：文本输入模块，被配置为输入待识别文本；预处理模块，被配置为将输入所述待识别文本经分词处理得到字词； Bert模型模块，被配置为将所述待识别文本的每个所述字词转换为对应的向量，再将所述向量转换为词表示向量，并对所述词表示向量进行分类标注；标注序列预测模块，被配置为计算所述词表示向量的标注之间的关联依赖关系，得到全局最优标注序列；脱敏模块，被配置为对标注的敏感实体进行脱敏操作；文本输出模块，被配置为输出脱敏文本。权　利　要　求　书 2/2 页 3 CN 114298035 A 3

专利 一种文本识别脱敏方法及其系统

专利一种文本识别脱敏方法及其系统