专利 一种OCR训练样本生成方法、装置及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111646988.5 (22)申请日 2021.12.2 9 (71)申请人北京易道博识科技有限公司地址 100083 北京市海淀区农大南路1号院 2号楼5层办公A- 501 (72)发明人沈达伟　王勇　朱军民　康铁钢　 (74)专利代理机构北京金智普华知识产权代理有限公司 1 1401 代理人岳野 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/148(2022.01) G06T 5/30(2006.01) G06T 7/12(2017.01) G06T 7/90(2017.01)G06K 9/62(2022.01) (54)发明名称一种OCR训练样本生成方法、装置及系统 (57)摘要本发明公开了一种OCR训练样本生成方法、装置及系统，涉及计算机视觉领域。该方法包括：文字轮廓提取步骤，基于原始图像提取所有文字轮廓，结合抹除区域坐标确定抹除区域掩膜，并得到修复区域掩膜；图像修复填充步骤，根据修复区域掩膜以及修复区域周围的像素信息进行图像修复填充，得到抹除文字后的背景模板；随机文本生成步骤，在每个生成区域内生成随机文本，由此得到一张新的样本图片和与之对应的标注信息文件。本发明结合文字轮廓提取算法和图像修复等技术，充分利用原图片背景信息，生成高质量训练图片，同时生成与图片对应的标注文件(包含文字内容、位置信息)，免去繁冗耗力的标注工作，可直接用于OCR模型训练。权利要求书3页说明书9页附图9页 CN 114419632 A 2022.04.29 CN 114419632 A 1.一种OCR训练样本生成方法，其特征在于，输入信息为原始图像以及抹除区域坐标，所述方法包括：文字轮廓提取步骤，基于原始图像提取所有文字轮廓，结合抹除区域坐标确定抹除区域掩膜，并得到修复区域掩膜；图像修复填充步骤，根据修复区域掩膜以及修复区域周围的像素信息进行图像修复填充，得到抹除文字后的背景模板；随机文本生成步骤，在每个生成区域内生成随机文本，由此得到一张新的样本图片和与之对应的标注信息文件。 2.根据权利要求1所述的OCR训练样本生成方法，其特征在于，所述文字轮廓提取步骤具体包括：将输入的原始图像转换为单通道灰度图，再将其自适应二值化，得到所有文字轮廓掩膜，文字区域值为1，背景区域值为0；根据抹除区域坐标，得到抹除区域掩膜，抹除区域值为1，其他区域值为0；将所有文字轮廓掩膜与抹除区域掩膜对应位置像素相乘，得到抹除区域文字轮廓掩膜；对抹除区域文字轮廓掩膜进行形态学膨胀，由此得到修复区域掩膜。 3.根据权利要求1所述的OCR训练样本生成方法，其特征在于，所述图像修复填充步骤具体包括：根据修复区域掩膜，在原始图像中确定待修复区域；从外到内的顺序轮询待修复区域的每个像素点，根据某个像素点周围已知像素的信息，计算该修复点应该填充的像素值，成为已知像素；向内计算下一个像素点的像素值；逐步迭代，待修复区域逐渐收缩变小，直到待修复区域都被修复，得到已修复的抹除文字后的背景模板。 4.根据权利要求3所述的OCR训练样本生成方法，其特征在于，从外到内的排序算法为快速行进算法。 5.根据权利要求3所述的OCR训练样本生成方法，其特征在于，所述根据某个像素点周围已知像素的信息，计算该修复点应该填充的像素值的方法包括：邻域已知像素值加权平均、 INPAINT_NS或I NPAINT_TELEA方法。 6.根据权利要求1所述的OCR训练样本生成方法，其特征在于，所述随机文本生成步骤具体包括：针对某一生成区域，确定针对该生成区域的随机文本预计长度w，设定字体大小为s，估算该段随机文本的文字个数n ＝int(w/s)；生成n*k个字符长度的冗余随机文本， k 为冗余倍数，取值为正整数；根据冗余随机文本长度和随机文本预计长度w的关系，确定最终生成的随机文本及其实际长度L；在生成区域内随机确定该生成文本的位置，写入该最终生成的随机文本并确定其标注信息；轮询每个生成区域，由此得到一张新的样本图片和与之对应的标注信息文件。权　利　要　求　书 1/3 页 2 CN 114419632 A 27.根据权利要求6所述的OCR训练样本生成方法，其特征在于，所述确定针对该生成区域的随机文本预计长度w具体包括：取该生成区域的长和宽中的最大值作为生成文本的最大长度，长和宽的最小值作为生成文本的最小长度，在该最小值和最大值之间随机选择一个整数作为随机文本预计长度，记为w。 8.根据权利要求6所述的OCR训练样本生成方法，其特征在于，所述生成n*k个字符长度的冗余随机文本步骤中，如指定语料类型，则以该指定语料类型生成n*k个字符长度的冗余随机文本；如不指定语料类型，则随机生成n*k个字符长度的冗余随机文本。 9.根据权利要求8所述的OCR训练样本生成方法，其特征在于，所述以该指定语料类型生成n*k个字符长度的冗余随机文本具体包括：正则表达式生成：用来生成规则明确的语料，将需要的语料规则特征编为正则表达式，然后根据正则表达式随机生成n*k个字符长度的冗余随机文本；或者数据库随机获取：用来生成规则不明确或某种固定型语料，通过公开信息获得该语料的所有内容，并将数据按条目存入数据库或数据文件中，在随机生成的时候从中随机获取一条n*k个字符长度的冗余随机文本即可。 10.根据权利要求6所述的OCR训练样本生成方法，其特征在于，所述根据冗余随机文本长度和随机文本预计长度w的关系，确定最终生成的随机文本及其实际长度L具体包括：从冗余随机文本的第一个字符开始，统计每个字符的实际长度并依次累加，直到字符总长度刚好满足 “再加一个字符就会超出w ”，将其作为最终生成的随机文本，记为 “text”，并记录该最终生成的随机文本的实际长度L。 11.根据权利要求6所述的OCR训练样本生成方法，其特征在于，在生成区域内随机确定该生成文本的位置，写入该最终生成的随机文本并确定其标注信息具体包括：设该生成区域左上角坐标为(x1,x2)，右下角坐标为(x2,y2)，则该最终生成的随机文本左上角起始点的x轴坐标范围为[x1,(x2 ‑w)],y轴坐标范围为[y1,(y2 ‑s)]，在该范围内随机选择一个整数点(x,y)作为该最终生成的随机文本的起始位置；在背景模板上，以(x,y)为文本左上角的起始位置，写入该最终生成的随机文本，其标注信息为：坐标为[(x,y),(x+L,y),(x+L,y+s),(x,y+s)]；文本内容为“text”。 12.根据权利要求6所述的OCR训练样本生成方法，其特征在于，所述在生成区域内随机确定该生成文本的位置，写入该最终生成的随机文本并确定其标注信息步骤之后，还包括对该最终生成的随机文本的字体大小和颜色进行调节的步骤。 13.根据权利要求12所述的OCR训练样本生成方法，其特征在于，所述对该最终生成的随机文本的字体大小进行调节具体包括：确定抹除区域宽度h，将最终生成的随机文本的大小默认设置为h 。 14.根据权利要求12所述的OCR训练样本生成方法，其特征在于，所述对该最终生成的随机文本的字体颜色进行调节具体包括：对于某一生成区域，从修复区域掩膜中选择对应的区域，并对该区域的文字轮廓进行骨干提取，形成文字骨干区域；从原始图像中提取该生成区域对应的区域，对于该区域的RGB三个通道，将各个通道文字骨干区域处的所有像素值进行求平均，即为该文字骨干区域的各个通道颜色值；权　利　要　求　书 2/3 页 3 CN 114419632 A 3

专利 一种OCR训练样本生成方法、装置及系统

专利一种OCR训练样本生成方法、装置及系统