专利 一种基于OCR文字识别的图像文字提取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111624674.5 (22)申请日 2021.12.28 (71)申请人南京遥瞰智能科技有限公司地址 210000 江苏省南京市玄武区蒋王庙4 号 (72)发明人伍贵宾　 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于OCR文字识别的图像文字提取方法 (57)摘要本发明公开了一种基于OCR文字识别的图像文字提取方法，属于OCR文字识别技术领域。一种基于OCR文字识别的图像文字提取方法，将字典和词典内的字词进行导入，建立表格、图像识别基本数据库；对需要进行文字识别的文件扫描传输至格式识别区，并根据识别文件的格式进行区分预处理；对预处理后的文字进行定位分割，通过字距的留白处进行定位分割；通过卷积神经网络对分割后的文字进行逐个象形识别配对；对识别相似度较高的文字进行组词组句，并对字词进行校对更正；将矫正后的文档进行分段排版，并提供输出格式进行输出；本发明便于对扫描对象的格式进行区分预处理，便于对识别的文字进行组词句校对矫正，便于提升文档输出的格式范围。权利要求书1页说明书3页附图2页 CN 114429543 A 2022.05.03 CN 114429543 A 1.一种基于OCR文字识别的图像文字提取方法，其特征在于，包括以下步骤： S101、将字典和词典内的字词进行导入，建立表格、图像识别基本数据库； S102、对需要进行文字识别的文件扫描传输至格式识别区，并根据识别文件的格式进行区分预处理； S103、对预处理后的文字进行定位分割，通过字距的留白处进行定位分割； S104、通过卷积神经网络对分割后的文字进行逐个象形识别配对； S105、对识别相似度较高的文字进行组词组句，并对字词进行校对更正； S106、将矫正后的文档进行分段排版，并提供输出格式进行输出。 2.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S101中，表格、图像识别基本数据库由字典与词典共同组成，且基本数据库由字典与词典所包含的语种包括中文与英文。 3.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S102中，进行文字识别的文件扫描格式支持范围包括图片及表格，所述根据识别文件的格式进行区分预处理方法为表格去除表格线，图片去除颜色及边框。 4.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S103中，对预处理后的文字进行定位分割方法为，对单个的字或单词按照空白距离进行定位分割处理。 5.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S104中，卷积神经网络，是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，且卷积神经网络包括卷积层和池化层，通过深度学习对分割后的文字进行逐个象形识别配对，主要通过基本数据库中的字典进行处理。 6.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S105中，对识别相似度较高的文字进行组词组句，主要通过基本数据库中的词典进行处理，实现对字词的校对更正。 7.根据权利要求5所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述步骤S106中，提供的输出格式包括P DF格式及DOCX文档格式。 8.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法，其特征在于，所述一种基于OCR文字识别的图像文字提取装置能够实现对操作步骤的完成，所述一种基于 OCR文字识别的图像文字提取装置，包括放置板（1）、第一底座（2）、活动轴（3）、支撑杆（4）、扫描机构（5）、第一连接线（6）、第二底座（7）、处理显示设备（8）、第二连接线（9）与打印机构（10），所述放置板（1）的边侧设置有第一底座（2），且第一底座（2）的顶部设置有活动轴（3），所述活动轴（3）的顶部设置有支撑杆（4），且支撑杆（4）的端部设置有扫描机构（5），所述第一底座（2）的边侧设置有第一连接线（6），且第一连接线（6）的端部设置有第二底座（7），所述第二底座（7）的顶部设置有处理显示设备（8），且第二底座（7）的边侧设置有第二连接线（9），所述第二连接线（9）的端部设置有打印机构（10）。 9.根据权利要求8所述的一种基于OCR文字识别的图像文字提取装置，其特征在于，所述扫描机构（5）通过支撑杆（4）、活动轴（3）与第一底座（2）构成转动结构，且第一底座（2）与放置板（1）之间为一体化设置，所述第一底座（2）通过第一连接线（6）与处理显示设备（8）构成电性连接，且处理显示设备（8）通过第二连接线（9）与打印机构（10）构成电性连接。权　利　要　求　书 1/1 页 2 CN 114429543 A 2一种基于 OCR文字识别的图像文字提取方法技术领域 [0001]本发明涉及OC R文字识别技术领域，尤其涉及一种基于OC R文字识别的图像文字提取方法。背景技术 [0002]OCR文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个 OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。 [0003]传统的OCR文字识别存在不便于对扫描对象的格式进行区分预处理，不便于对识别的文字进行组词句校对矫正，不便于提升文档输出的格式范围的问题。发明内容 [0004]本发明的目的是为了解决不便于对扫描对象的格式进行区分预处理，不便于对识别的文字进行组词句校对矫正，不便于提升文档输出的格式范围的问题。 [0005]为了实现上述目的，本发明采用了如下技术方案：一种基于OCR文字识别的图像文字提取方法，包括以下步骤： S101、将字典和词典内的字词进行导入，建立表格、图像识别基本数据库； S102、对需要进行文字识别的文件扫描传输至格式识别区，并根据识别文件的格式进行区分预处理； S103、对预处理后的文字进行定位分割，通过字距的留白处进行定位分割； S104、通过卷积神经网络对分割后的文字进行逐个象形识别配对； S105、对识别相似度较高的文字进行组词组句，并对字词进行校对更正； S106、将矫正后的文档进行分段排版，并提供输出格式进行输出。 [0006]优选的，所述步骤S101中，表格、图像识别基本数据库由字典与词典共同组成，且基本数据库由字典与词典所包含的语种包括中文与英文。 [0007]优选的，所述步骤S102中，进行文字识别的文件扫描格式支持范围包括图片及表格，所述根据识别文件的格式进行区分预处理方法为表格去除表格线，图片去除颜色及边框。 [0008]优选的，所述步骤S103中，对预处理后的文字进行定位分割方法为，对单个的字或单词按照空白距离进行定位分割处理。 [0009]优选的，所述步骤S104中，卷积神经网络，是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，且卷积神经网络包括卷积层和池化层，通过深度学习对分割后的文字进行逐个象形识别配对，主要通过基本数据库中的字典进行处理。 [0010]优选的，所述步骤S105中，对识别相似度较高的文字进行组词组句，主要通过基本说　明　书 1/3 页 3 CN 114429543 A 3

专利 一种基于OCR文字识别的图像文字提取方法

专利一种基于OCR文字识别的图像文字提取方法