(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111646988.5
(22)申请日 2021.12.2 9
(71)申请人 北京易道博识科技有限公司
地址 100083 北京市海淀区农大南路1号院
2号楼5层办公A- 501
(72)发明人 沈达伟 王勇 朱军民 康铁钢
(74)专利代理 机构 北京金智普华知识产权代理
有限公司 1 1401
代理人 岳野
(51)Int.Cl.
G06V 30/40(2022.01)
G06V 30/148(2022.01)
G06T 5/30(2006.01)
G06T 7/12(2017.01)
G06T 7/90(2017.01)G06K 9/62(2022.01)
(54)发明名称
一种OCR训练样本生成方法、 装置及系统
(57)摘要
本发明公开了一种OCR训练样本生成方法、
装置及系统, 涉及计算机视觉 领域。 该方法包括:
文字轮廓提取步骤, 基于原始图像提取所有文字
轮廓, 结合抹除区域坐标确定抹除区域掩膜, 并
得到修复区域掩膜; 图像修复填充步骤, 根据修
复区域掩膜以及修复区域周围的像素信息进行
图像修复填充, 得到抹除文字后的背景模板; 随
机文本生 成步骤, 在每个生 成区域内生成随机文
本, 由此得到一张新的样本图片和与之对应的标
注信息文件。 本发明结合文字轮廓提取算法和图
像修复等技术, 充分利用原图片背景信息, 生成
高质量训练图片, 同时生 成与图片 对应的标注文
件(包含文字内容、 位置信息), 免去繁冗耗力的
标注工作, 可直接用于OCR模型训练。
权利要求书3页 说明书9页 附图9页
CN 114419632 A
2022.04.29
CN 114419632 A
1.一种OCR训练样本生成方法, 其特征在于, 输入信息为原始图像以及抹除区域坐标,
所述方法包括:
文字轮廓提取步骤, 基于原始图像提取所有文字轮廓, 结合抹除区域坐标确定抹除区
域掩膜, 并得到修复区域掩膜;
图像修复填充步骤, 根据修复区域掩膜以及修复区域周围的像素信 息进行图像修复填
充, 得到抹除文字后的背景模板;
随机文本生成步骤, 在每个生成区域内生成随机文本, 由此得到一张新的样本 图片和
与之对应的标注信息文件。
2.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述文字轮廓提取步骤
具体包括:
将输入的原始图像转换为单通道灰度图, 再将其自适应二值化, 得到所有文字轮廓掩
膜, 文字区域 值为1, 背景区域 值为0;
根据抹除区域 坐标, 得到抹除区域掩膜, 抹除区域 值为1, 其他区域值为0;
将所有文字轮廓掩膜与抹除区域掩膜对应位置像素相乘, 得到抹除区域文字轮廓掩
膜;
对抹除区域文字轮廓掩膜进行 形态学膨胀, 由此 得到修复区域掩膜。
3.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述图像修复填充步骤
具体包括:
根据修复区域掩膜, 在原 始图像中确定待修复区域;
从外到内的顺序轮询待修复区域的每个像素点, 根据某个像素点周围已知像素的信
息, 计算该修复点应该填充的像素值, 成为已知像素;
向内计算下一个 像素点的像素值;
逐步迭代, 待修复区域逐渐收缩变小, 直到待修复区域都被修复, 得到已修复的抹除文
字后的背景模板 。
4.根据权利要求3所述的OCR训练样本生成方法, 其特征在于, 从外到内的排序算法为
快速行进算法。
5.根据权利要求3所述的OCR训练样本生成方法, 其特征在于, 所述根据某个像素点周
围已知像素 的信息, 计算该修复点应该填充的像素值的方法包括: 邻域已知像素值加权平
均、 INPAINT_NS或I NPAINT_TELEA方法。
6.根据权利要求1所述的OCR训练样本生成方法, 其特征在于, 所述随机文本生成步骤
具体包括:
针对某一生成区域, 确定针对该生成区域的随机文本预计长度w, 设定字体大小为s, 估
算该段随机文本的文字个数n =int(w/s);
生成n*k个字符长度的冗余随机文本, k 为冗余倍数, 取值 为正整数;
根据冗余随机文本长度和随机文本预计长度w的关系, 确定最终生成的随机文本及其
实际长度L;
在生成区域内随机确定该生成文本的位置, 写入该最终生成的随机文本并确定其标注
信息;
轮询每个生成区域, 由此 得到一张新的样本图片和与之对应的标注信息文件。权 利 要 求 书 1/3 页
2
CN 114419632 A
27.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述确定针对该生成区
域的随机文本预计长度w具体包括:
取该生成区域的长和宽 中的最大值作为生成文本的最大长度, 长和宽的最小值作为生
成文本的最小长度, 在该最小值和 最大值之间随机选择一个整数作为 随机文本预计长度,
记为w。
8.根据权利 要求6所述的OCR训练样本生成方法, 其特征在于, 所述生成n*k个字符长度
的冗余随机文本步骤中, 如指 定语料类型, 则以该指 定语料类型生成n*k个字 符长度的冗余
随机文本; 如不指定语料类型, 则随机生成n*k个字符长度的冗余随机文本 。
9.根据权利要求8所述的OCR训练样本生成方法, 其特征在于, 所述以该指定语料类型
生成n*k个字符长度的冗余随机文本具体包括:
正则表达 式生成: 用来生成规则明确的语料, 将需要的语料规则特征编为正则表达 式,
然后根据正则表达式随机生成n*k个字符长度的冗余随机文本; 或者
数据库随机获取: 用来生成规则不明确或某种固定型语料, 通过公开信息获得该语料
的所有内容, 并将数据按条目存入数据库或数据文件中, 在随机生成的时候从中随机获取
一条n*k个字符长度的冗余随机文本即可。
10.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述根据冗余随机文本
长度和随机文本预计长度w的关系, 确定最终生成的随机文本及其实际长度L具体包括:
从冗余随机文本的第一个字符开始, 统计每个字符的实 际长度并依次累加, 直到字符
总长度刚好满足 “再加一个字符就会超出w ”, 将其作为最终生成的随机文本, 记为 “text”,
并记录该最终生成的随机文本的实际长度L。
11.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 在生成区域内随机确定
该生成文本的位置, 写入该最终生成的随机文本并确定其标注信息具体包括:
设该生成区域左上角坐标为(x1,x2), 右下角坐标为(x2,y2), 则该最终生成的随机文
本左上角起始点的x轴坐标范围为[x1,(x2 ‑w)],y轴坐标范 围为[y1,(y2 ‑s)], 在该范 围内
随机选择一个整数点(x,y)作为该最终生成的随机文本的起始位置;
在背景模板上, 以(x,y)为文本左上角的起始位置, 写入该最终生成的随机文本, 其标
注信息为: 坐标为[(x,y),(x+L,y),(x+L,y+s),(x,y+s)]; 文本内容 为“text”。
12.根据权利要求6所述的OCR训练样本生成方法, 其特征在于, 所述在生成区域内随机
确定该生成文本的位置, 写入该最终生成的随机文本并确定其标注信息步骤之后, 还包括
对该最终生成的随机文本的字体大小和颜色进行调节的步骤。
13.根据权利要求12所述的OCR训练样本生成方法, 其特征在于, 所述对该最终生成的
随机文本的字体大小进 行调节具体包括: 确定抹除区域宽度h, 将最终生成的随机文本的大
小默认设置为h 。
14.根据权利要求12所述的OCR训练样本生成方法, 其特征在于, 所述对该最终生成的
随机文本的字体颜色进行调节具体包括:
对于某一生成区域, 从修复区域掩膜中选择对应的区域, 并对该区域的文字轮廓进行
骨干提取, 形成文字骨干区域;
从原始图像 中提取该生成区域对应的区域, 对于该区域的RGB三个通道, 将各个通道文
字骨干区域处的所有像素值进行求平均, 即为该文字骨干区域的各个通道颜色值;权 利 要 求 书 2/3 页
3
CN 114419632 A
3
专利 一种OCR训练样本生成方法、装置及系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:40:17上传分享