公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111640408.1 (22)申请日 2021.12.2 9 (71)申请人 电子科技大 学广东电子信息 工程研 究院 地址 523000 广东省东莞 市松山湖高新 技 术产业开发区总部二路17号 (72)发明人 张宏莉 韩培义 叶麟 余翔湛 李东 于海宁 方滨兴 林华娟 (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 代理人 潘俊达 郭宝煊 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/117(2020.01)G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 一种文本识别脱敏 方法及其系统 (57)摘要 本发明公开了一种文本识别脱敏方法及其 系统, 该方法包括: 获取待识别文本, 将待识别文 本拆分为多个句子, 再将句子分词为多个字词; 将待识别文本的每个字词转换为对应的向量; 将 向量输入至Bert模型, Bert模型将向量转换为词 表示向量, 并对词表示向量进行分类标注; 将标 注后的词表 示向量输入条件随机场, 条件随机场 基于标注之间的关联依赖关系进行计算, 得到全 局最优标注序列; 对标注为敏感实体的字词进行 脱敏操作。 本发明能够做到并发执行, 同时提取 字词在句子中的关系特征, 进而更全面反映句子 语义, 又能根据句子上下文获取词义, 从而避免 歧义出现, 此外, 能够针对不同类别的敏感实体 进行不同的脱敏操作。 权利要求书2页 说明书5页 附图1页 CN 114298035 A 2022.04.08 CN 114298035 A 1.一种文本识别脱敏 方法, 其特 征在于, 包括: 步骤1、 获取待识别文本, 将所述待识别文本拆分为多个句子, 再将所述句子分词为多 个字词; 步骤2、 将所述待识别文本的每 个所述字词转换为对应的向量; 步骤3、 将所述向量输入至Bert模型, 所述Bert模型将所述向量转换为词表示向量, 并 对所述词表示向量进行分类标注; 步骤4、 将标注后的所述词表示向量输入条件随机场, 所述条件随机场基于标注之间的 关联依赖关系进行计算, 得到全局最优标注序列; 步骤5、 对标注为敏感实体的所述字词进行脱敏操作。 2.根据权利 要求1所述的文本识别 脱敏方法, 其特征在于, 在所述步骤3中, 所述Bert模 型是采用以下 方式进行训练获得的: 步骤3‑1、 获取包 含敏感实体的待识别文本, 建立文本数据集; 步骤3‑2、 将所述待识别文本进行分词, 并对敏感实体进行分类标注, 构建训练样本; 步骤3‑3、 使用所述训练样本对所述Bert模型进行预训练, 得到训练好的所述Bert模 型。 3.根据权利要求1所述的文本识别脱敏方法, 其特征在于, 在所述步骤1中, 所述句子为 英文句子时, 使用WordPiece分词方法将切分为细粒度的所述字词, 所述句子为中文句子 时, 直接将所述中文句子的进行 单字拆分。 4.根据权利要求1所述的文本识别脱敏方法, 其特征在于, 在所述步骤2中, 所述向量为 词向量、 段向量与位置向量的叠加 和。 5.根据权利要求2所述的文本识别脱敏方法, 其特征在于, 在所述步骤3中, 将每个所述 字词标注为 “B‑X”、“I‑X”、“O” “E‑X”或“S”, 其中, 所述 “B”为所述敏感实体开始位置, 所述 “I”为所述敏感实体中间位置, 所述 “O”为所述敏感实体以外的字词, 所述 “E”为所述敏感实 体结束位置, 所述 “S”为单个实体, 所述 “X”为标注所述敏感实体所属类型。 6.根据权利要求1所述的文本识别脱敏方法, 其特征在于, 在所述步骤4中, 将所述词表 示向量的序列作为观测序列, 将所述标注的序列作为标记序列, 计算所述观测序列对应的 所述标记序列的第一概率, 并对 所述第一概率进 行归一化, 得到所述第二概率, 所述第二概 率的值最大的所述标注序列即为 最优的所述标注序列。 7.根据权利要求6所述的文本识别脱敏方法, 其特征在于, 所述观测序列对应的所述标 记序列的第一 概率的计算公式如下: M为观测序列, K为标注序列, i为观测序列中第i个字词, A是转换矩阵, Pi,Ki为第i个字词 的第Ki个标注的预测概率值, Ki为第i个字词的标注序列, 所述Ki‑1为第i‑1个字词的标注序 列, n∈N, 且n≥1。 8.根据权利要求7所述的文本识别 脱敏方法, 其特征在于, 将所述score(M∣ K)的值利用 Softmax进行归一 化得到最后的概 率值, 计算所述第二 概率P(K∣ M)公式如下:权 利 要 求 书 1/2 页 2 CN 114298035 A 2K'为任意 一个所述标注序列。 9.根据权利要求1所述的文本识别脱敏方法, 其特征在于, 在所述步骤5中, 所述脱敏操 作包括替换、 擦除、 数据泛化、 格式保全加密。 10.一种文本识别脱敏系统, 其特 征在于, 包括: 文本输入模块, 被配置为输入待识别文本; 预处理模块, 被 配置为将输入所述待识别文本经分词处 理得到字词; Bert模型模块, 被配置为将所述待识别文本的每个所述字词转换为对应的向量, 再将 所述向量 转换为词表示向量, 并对所述词表示向量进行分类标注; 标注序列预测模块, 被配置为计算所述词表示向量的标注之间的关联依赖关系, 得到 全局最优标注序列; 脱敏模块, 被 配置为对标注的敏感实体进行脱敏操作; 文本输出模块, 被 配置为输出脱敏文本 。权 利 要 求 书 2/2 页 3 CN 114298035 A 3
专利 一种文本识别脱敏方法及其系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 20:42:08
上传分享
举报
下载
原文档
(491.0 KB)
分享
友情链接
T-CISA 236—2022 钢铁企业润滑管理导则.pdf
GB-T 3978-2008 标准照明体和几何条件.pdf
T-ZZB 0334—2018 电子驻车 EPB 制动钳总成.pdf
JR-T0124-2014 金融机构编码规范.pdf
GB-T 33848.3-2017 信息技术 射频识别 第3部分:13.56MHz的空中接口通信参数.pdf
DB22-T 2123-2014 栗山天牛综合防治技术规程 吉林省.pdf
GB-T 22522-2021 测量螺纹用米制系列量针.pdf
GB 7260.1-2008 不间断电源第1-1部分 一般规定和安全要求.pdf
GB-T 39997-2021 加油站埋地用热塑性塑料复合管道系统.pdf
GB-T 26093-2010 齿轮双面啮合综合测量仪.pdf
GB-T 3730.1-2022 汽车、挂车及汽车列车的术语和定义 第1部分:类型.pdf
ISO 19160-4 2023 Addressing — Part 4 International postal address components and template.pdf
GB-T 9473-2022 读写作业台灯性能要求.pdf
GB-T 23981.2-2023 色漆和清漆 遮盖力的测定 第2部分:黑白格板法.pdf
奇安信 2022中国软件供应链安全分析报告.pdf
T-CCMSA 50104—2021 电热毛巾架.pdf
T-CFA 03110323—2022 铸件加工单元数字化技术要求.pdf
GB-T 6968-2019 膜式燃气表.pdf
T-ZQTX 002—2023 章丘铁锅.pdf
DL-T 2041-2019 分布式电源接入电网承载力评估导则.pdf
1
/
3
9
评价文档
赞助2元 点击下载(491.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。