公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111624674.5 (22)申请日 2021.12.28 (71)申请人 南京遥瞰智能科技有限公司 地址 210000 江苏省南京市玄武区蒋 王庙4 号 (72)发明人 伍贵宾  (51)Int.Cl. G06V 10/22(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于OCR文字识别的图像文字提取方法 (57)摘要 本发明公开了一种基于OCR文字识别的图像 文字提取方法, 属于OCR文字识别技术领域。 一种 基于OCR文字识别的图像文字提取方法, 将字典 和词典内的字词进行导入, 建立表格、 图像识别 基本数据库; 对需要进行文字识别的文件扫描传 输至格式识别区, 并根据 识别文件的格式进行区 分预处理; 对预处理后的文字进行定位分割, 通 过字距的留白处进行定位分割; 通过卷积神经网 络对分割后的文字进行逐个象形识别配对; 对识 别相似度较高的文字进行组词组句, 并对字词进 行校对更正; 将矫正后的文档进行分段排版, 并 提供输出格式进行输出; 本发明便于对扫描对象 的格式进行区分预处理, 便于对识别的文字进行 组词句校对矫正, 便于提升文档输出的格式范 围。 权利要求书1页 说明书3页 附图2页 CN 114429543 A 2022.05.03 CN 114429543 A 1.一种基于OCR文字识别的图像文字提取 方法, 其特 征在于, 包括以下步骤: S101、 将字典和词典内的字词进行导入, 建立表格、 图像识别基本数据库; S102、 对需要进行文字识别的文件扫描传输至格式识别区, 并根据识别文件的格式进 行区分预处 理; S103、 对预处 理后的文字进行定位分割, 通过字距的留白处进行定位分割; S104、 通过 卷积神经网络对分割后的文字进行 逐个象形识别配对; S105、 对识别相似度较高的文字进行组词组句, 并对字词进行 校对更正; S106、 将矫正后的文档进行分段排版, 并提供输出格式进行输出。 2.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S101中, 表格、 图像识别基本数据库由字典与词典共同组成, 且基本数据库由字典与 词典所包 含的语种包括中文与英文。 3.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S102中, 进行文字识别的文件扫描格式支持范围包括图片及表格, 所述根据识别文 件的格式进行区分预处 理方法为表格去除表格线, 图片去除颜色及边框 。 4.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S103中, 对预处理后的文字进行定位分割方法为, 对单个的字或单词按照空白距离 进行定位分割处 理。 5.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S104中, 卷积神经网络, 是一种前馈神经网络, 人工神经元可以响应周围单元, 可以 进行大型图像处理, 且卷积神经网络包括卷积层和池化层, 通过深度学习对分割后的文字 进行逐个象形识别配对, 主 要通过基本数据库中的字典进行处 理。 6.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S105中, 对识别相 似度较高的文字进行组词组句, 主要通过基本数据库中的词典进 行处理, 实现对字词的校对更正。 7.根据权利要求5所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述步骤S106中, 提供的输出格式包括P DF格式及DOCX文档格式。 8.根据权利要求1所述的一种基于OCR文字识别的图像文字提取方法, 其特征在于, 所 述一种基于OCR文字识别的图像文字提取装置能够实现对操作步骤的完成, 所述一种基于 OCR文字识别的图像文字提取装置, 包括放置板 (1) 、 第一底座 (2) 、 活动轴 (3) 、 支撑杆 (4) 、 扫描机构 (5) 、 第一连接线 (6) 、 第二底 座 (7) 、 处理显示设备 (8) 、 第二连接线 (9) 与打印机构 (10) , 所述放置板 (1) 的边侧设置有第一底座 (2) , 且第一底座 (2) 的顶部设置有活动轴 (3) , 所述活动轴 (3) 的顶部设置有支撑杆 (4) , 且支撑杆 (4) 的端部设置有扫描机构 (5) , 所述第 一底座 (2) 的边侧设置有第一连接线 (6) , 且第一连接线 (6) 的端部设置有第二底座 (7) , 所 述第二底座 (7) 的顶部设置有处理显示设备 (8) , 且第二底座 (7) 的边侧设置有第二连接线 (9) , 所述第二连接线 (9) 的端部设置有打印机构 (10) 。 9.根据权利要求8所述的一种基于OCR文字识别的图像文字提取装置, 其特征在于, 所 述扫描机构 (5) 通过支撑杆 (4) 、 活动轴 (3) 与第一底座 (2) 构成转动结构, 且第一底座 (2) 与 放置板 (1) 之间为一体化设置, 所述第一底 座 (2) 通过第一连接线 (6) 与处理显示设备 (8) 构 成电性连接, 且处 理显示设备 (8) 通过第二连接线 (9) 与打印机构 (10) 构成电性连接 。权 利 要 求 书 1/1 页 2 CN 114429543 A 2一种基于 OCR文字识别的图像文字提取方 法 技术领域 [0001]本发明涉及OC R文字识别技术领域, 尤其涉及一种基于OC R文字识别的图像文字提 取方法。 背景技术 [0002]OCR文字识别是指电子设备 (例如扫描仪或数码相机) 检查纸上打印的字符, 然后 用字符识别方法将形状翻译成计算机文字的过程; 即, 对文本 资料进行扫描, 然后对图像文 件进行分析处理, 获取文字及版面信息的过程。 如何除错 或利用辅助信息提高识别正确率, 是OCR最重要的课题。 衡量一个 OCR系统性能好坏的主要指标有: 拒识率、 误识率、 识别速度、 用户界面的友好 性, 产品的稳定性, 易用性及可 行性等。 [0003]传统的OCR文字识别存在不便于对扫描对象的格式进行区分预处理, 不便于对识 别的文字进行组词句校对矫 正, 不便于提升文档输出的格式范围的问题。 发明内容 [0004]本发明的目的是为了解决不便于对扫描对象的格式进行区分预处理, 不便于对识 别的文字进行组词句校对矫 正, 不便于提升文档输出的格式范围的问题。 [0005]为了实现上述目的, 本发明采用了如下技 术方案: 一种基于OCR文字识别的图像文字提取 方法, 包括以下步骤: S101、 将字典和词典内的字词进行导入, 建立表格、 图像识别基本数据库; S102、 对需要进行文字识别的文件扫描传输至格式识别区, 并根据识别文件的格 式进行区分预处 理; S103、 对预处 理后的文字进行定位分割, 通过字距的留白处进行定位分割; S104、 通过 卷积神经网络对分割后的文字进行 逐个象形识别配对; S105、 对识别相似度较高的文字进行组词组句, 并对字词进行 校对更正; S106、 将矫正后的文档进行分段排版, 并提供输出格式进行输出。 [0006]优选的, 所述步骤S101中, 表格、 图像识别基本数据库由字典与词典共同组成, 且 基本数据库由字典与词典所包 含的语种包括中文与英文。 [0007]优选的, 所述步骤S102中, 进行文字识别的文件扫描格式支持范围包括图片及表 格, 所述根据识别文件的格式进行区分预处理方法为表格去除表格线, 图片去除颜色及边 框。 [0008]优选的, 所述步骤S103中, 对预处理后的文字进行定位分割方法为, 对单个的字或 单词按照空白距离进行定位分割处 理。 [0009]优选的, 所述步骤S104中, 卷积神 经网络, 是一种前馈神经网络, 人工神 经元可以 响应周围单元, 可以进 行大型图像处理, 且卷积神经网络包括卷积层和池化层, 通过深度学 习对分割后的文字进行 逐个象形识别配对, 主 要通过基本数据库中的字典进行处 理。 [0010]优选的, 所述步骤S105中, 对识别相似度较高的文字进行组词组句, 主要通过基本说 明 书 1/3 页 3 CN 114429543 A 3

.PDF文档 专利 一种基于OCR文字识别的图像文字提取方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于OCR文字识别的图像文字提取方法 第 1 页 专利 一种基于OCR文字识别的图像文字提取方法 第 2 页 专利 一种基于OCR文字识别的图像文字提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:40:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。