公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111646988.5 (22)申请日 2021.12.2 9 (71)申请人 北京易道博识科技有限公司 地址 100083 北京市海淀区农大南路1号院 2号楼5层办公A- 501 (72)发明人 沈达伟 王勇 朱军民 康铁钢  (74)专利代理 机构 北京金智普华知识产权代理 有限公司 1 1401 代理人 岳野 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/148(2022.01) G06T 5/30(2006.01) G06T 7/12(2017.01) G06T 7/90(2017.01)G06K 9/62(2022.01) (54)发明名称 一种OCR训练样本生成方法、 装置及系统 (57)摘要 本发明公开了一种OCR训练样本生成方法、 装置及系统, 涉及计算机视觉 领域。 该方法包括: 文字轮廓提取步骤, 基于原始图像提取所有文字 轮廓, 结合抹除区域坐标确定抹除区域掩膜, 并 得到修复区域掩膜; 图像修复填充步骤, 根据修 复区域掩膜以及修复区域周围的像素信息进行 图像修复填充, 得到抹除文字后的背景模板; 随 机文本生 成步骤, 在每个生 成区域内生成随机文 本, 由此得到一张新的样本图片和与之对应的标 注信息文件。 本发明结合文字轮廓提取算法和图 像修复等技术, 充分利用原图片背景信息, 生成 高质量训练图片, 同时生 成与图片 对应的标注文 件(包含文字内容、 位置信息), 免去繁冗耗力的 标注工作, 可直接用于OCR模型训练。 权利要求书3页 说明书9页 附图9页 CN 114419632 A 2022.04.29 CN 114419632 A 1.一种OCR训练样本生成方法, 其特征在于, 输入信息为原始图像以及抹除区域坐标, 所述方法包括: 文字轮廓提取步骤, 基于原始图像提取所有文字轮廓, 结合抹除区域坐标确定抹除区 域掩膜, 并得到修复区域掩膜; 图像修复填充步骤, 根据修复区域掩膜以及修复区域周围的像素信 息进行图像修复填 充, 得到抹除文字后的背景模板; 随机文本生成步骤, 在每个生成区域内生成随机文本, 由此得到一张新的样本 图片和 与之对应的标注信息文件。 2.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述文字轮廓提取步骤 具体包括: 将输入的原始图像转换为单通道灰度图, 再将其自适应二值化, 得到所有文字轮廓掩 膜, 文字区域 值为1, 背景区域 值为0; 根据抹除区域 坐标, 得到抹除区域掩膜, 抹除区域 值为1, 其他区域值为0; 将所有文字轮廓掩膜与抹除区域掩膜对应位置像素相乘, 得到抹除区域文字轮廓掩 膜; 对抹除区域文字轮廓掩膜进行 形态学膨胀, 由此 得到修复区域掩膜。 3.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述图像修复填充步骤 具体包括: 根据修复区域掩膜, 在原 始图像中确定待修复区域; 从外到内的顺序轮询待修复区域的每个像素点, 根据某个像素点周围已知像素的信 息, 计算该修复点应该填充的像素值, 成为已知像素; 向内计算下一个 像素点的像素值; 逐步迭代, 待修复区域逐渐收缩变小, 直到待修复区域都被修复, 得到已修复的抹除文 字后的背景模板 。 4.根据权利要求3所述的OCR训练样本生成方法, 其特征在于, 从外到内的排序算法为 快速行进算法。 5.根据权利要求3所述的OCR训练样本生成方法, 其特征在于, 所述根据某个像素点周 围已知像素 的信息, 计算该修复点应该填充的像素值的方法包括: 邻域已知像素值加权平 均、 INPAINT_NS或I NPAINT_TELEA方法。 6.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述随机文本生成步骤 具体包括: 针对某一生成区域, 确定针对该生成区域的随机文本预计长度w, 设定字体大小为s, 估 算该段随机文本的文字个数n =int(w/s); 生成n*k个字符长度的冗余随机文本, k 为冗余倍数, 取值 为正整数; 根据冗余随机文本长度和随机文本预计长度w的关系, 确定最终生成的随机文本及其 实际长度L; 在生成区域内随机确定该生成文本的位置, 写入该最终生成的随机文本并确定其标注 信息; 轮询每个生成区域, 由此 得到一张新的样本图片和与之对应的标注信息文件。权 利 要 求 书 1/3 页 2 CN 114419632 A 27.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述确定针对该生成区 域的随机文本预计长度w具体包括: 取该生成区域的长和宽 中的最大值作为生成文本的最大长度, 长和宽的最小值作为生 成文本的最小长度, 在该最小值和 最大值之间随机选择一个整数作为 随机文本预计长度, 记为w。 8.根据权利 要求6所述的OCR训练样本生成方法, 其特征在于, 所述生成n*k个字符长度 的冗余随机文本步骤中, 如指 定语料类型, 则以该指 定语料类型生成n*k个字 符长度的冗余 随机文本; 如不指定语料类型, 则随机生成n*k个字符长度的冗余随机文本 。 9.根据权利要求8所述的OCR训练样本生成方法, 其特征在于, 所述以该指定语料类型 生成n*k个字符长度的冗余随机文本具体包括: 正则表达 式生成: 用来生成规则明确的语料, 将需要的语料规则特征编为正则表达 式, 然后根据正则表达式随机生成n*k个字符长度的冗余随机文本; 或者 数据库随机获取: 用来生成规则不明确或某种固定型语料, 通过公开信息获得该语料 的所有内容, 并将数据按条目存入数据库或数据文件中, 在随机生成的时候从中随机获取 一条n*k个字符长度的冗余随机文本即可。 10.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述根据冗余随机文本 长度和随机文本预计长度w的关系, 确定最终生成的随机文本及其实际长度L具体包括: 从冗余随机文本的第一个字符开始, 统计每个字符的实 际长度并依次累加, 直到字符 总长度刚好满足 “再加一个字符就会超出w ”, 将其作为最终生成的随机文本, 记为 “text”, 并记录该最终生成的随机文本的实际长度L。 11.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 在生成区域内随机确定 该生成文本的位置, 写入该最终生成的随机文本并确定其标注信息具体包括: 设该生成区域左上角坐标为(x1,x2), 右下角坐标为(x2,y2), 则该最终生成的随机文 本左上角起始点的x轴坐标范围为[x1,(x2 ‑w)],y轴坐标范 围为[y1,(y2 ‑s)], 在该范 围内 随机选择一个整数点(x,y)作为该最终生成的随机文本的起始位置; 在背景模板上, 以(x,y)为文本左上角的起始位置, 写入该最终生成的随机文本, 其标 注信息为: 坐标为[(x,y),(x+L,y),(x+L,y+s),(x,y+s)]; 文本内容 为“text”。 12.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述在生成区域内随机 确定该生成文本的位置, 写入该最终生成的随机文本并确定其标注信息步骤之后, 还包括 对该最终生成的随机文本的字体大小和颜色进行调节的步骤。 13.根据权利要求12所述的OCR训练样本生成方法, 其特征在于, 所述对该最终生成的 随机文本的字体大小进 行调节具体包括: 确定抹除区域宽度h, 将最终生成的随机文本的大 小默认设置为h 。 14.根据权利要求12所述的OCR训练样本生成方法, 其特征在于, 所述对该最终生成的 随机文本的字体颜色进行调节具体包括: 对于某一生成区域, 从修复区域掩膜中选择对应的区域, 并对该区域的文字轮廓进行 骨干提取, 形成文字骨干区域; 从原始图像 中提取该生成区域对应的区域, 对于该区域的RGB三个通道, 将各个通道文 字骨干区域处的所有像素值进行求平均, 即为该文字骨干区域的各个通道颜色值;权 利 要 求 书 2/3 页 3 CN 114419632 A 3

.PDF文档 专利 一种OCR训练样本生成方法、装置及系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种OCR训练样本生成方法、装置及系统 第 1 页 专利 一种OCR训练样本生成方法、装置及系统 第 2 页 专利 一种OCR训练样本生成方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:40:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。