公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111628175.3 (22)申请日 2021.12.28 (71)申请人 天翼电子商务有限公司 地址 102200 北京市昌平区未来科技城南 区中国电信集团公司院内 (72)发明人 方徐伟 徐小龙 谢巍盛 张帅 周松 (51)Int.Cl. G06V 30/414(2022.01) G06V 30/416(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于聚合分离思想的改进型文本检测 方法 (57)摘要 本发明公开了一种基于聚合分离思想的改 进型文本检测方法, 涉及图像, 文本检测, OCR领 域, 包括以下步骤: 文本检测模型构建、 损失函数 构建以及检测合并后处理, 本发 明提出了聚合向 量来改进了基于小文本框合并的文本检测算法, 主要可以解决文本检测中邻近文本粘 连的问题, 提升文本检测的准确和召回率, 从而提升OCR的 识别效果。 权利要求书1页 说明书4页 附图1页 CN 114529928 A 2022.05.24 CN 114529928 A 1.一种基于聚合分离思想的改进型文本检测方法, 其特 征在于, 包括以下步骤: 一、 构建整体的网络模型架构, 这里backbone使用的是vgg16的前5层卷积网络, 假设图 片大小为N*M, 经过该层后map大小变成了N/16*M/16, 我们构建了一个img2col层来提取map 的领近3*3的特征向量, 因为map输出的channel为512, 经过img2col后channel增加到了 512*9, 为了增加准确率, 我们对宽度方向接了一个LSTM来联系上下文, 这样可以提升文字 间距大的文本的检测效果; 最后, 我们接了一个FC来进一步融合特征, 最终我们模型有3个 输出, 输出2K个坐标, 这里坐标代表anchor中心点的y坐标偏移和缩放比例; 输出2k个 score, 代表着anchor是否为文本, 输出4K个聚合向量, 用来判别anchor是否属于同一类, 其 中K代表K种高度的anc hor, 这里设置为12; 二、 损失函数构建 根据网络 输出, 我们需要构建小 文本的之间的聚类, 于是我们构建如下损失函数: N代表文本的个数, Ai代表相同文本的小文本框的集合, |Ai|代表相同文本的小文本框 的个数, |Bi|代表另一个文本的小 文本框的个数, δ聚合, δ离 散为常数, 这里我们设置为0.5和3; 我们根据这两个损失函数来训练我们的聚合向量, 聚合损失函数是用来 聚合属于同一 个文本的小文本框的聚合向量, 而离散损失是用来分离不同文本间的小文本框的聚合向 量; 整体的损失函数构建如下: Ltotal=Lscore+Lver+ μ*(L聚合+L离 散); 其中LScore使用cros sentry, Lver使用smooth‑l1, μ为常数, 这里 取2; 三、 检测合并后处 理 (1)根据网络输出, 我们可以得到3个输出, 我们根据2k个score, 排序后取前2000个得 分, 根据这2000个得分去取对应的anchor和anchor的中心点y坐标偏移和缩放预测, 对 anchor进行偏移和缩放后得到坐标, 对坐标进行NMS后得到剩余的anc hor; (2)根据CTPN算法的合并小文本框的方式来合并小文本, 我们这里根据排序后得分的 index取得对应的小文本框的聚合向量, 对聚合向量做层次聚类, 得到每个小文本框的类 别, 然后在小 文本框的合并过程中判断两个文本 框是否属于同一类即同一文本进行聚合。权 利 要 求 书 1/1 页 2 CN 114529928 A 2一种基于聚合分离思想的改进型文本检测方 法 技术领域 [0001]本发明涉及图像, 文本检测, OCR领域, 特别涉及一种基于聚合分离思想的改进型 文本检测方法。 背景技术 [0002]OCR技术目前正在不断发展, 而且应用需求也比较大, 作为少数比较容易落地的人 工智能技术之一, 也是大多 数企业研究院和各大学校研究 的热门技术之一。 OCR主要分为文 本检测, 文本识别和结构化三大板块, 对于文本检测目前主要研究分为三大类, 第一种, 基 于anchor的文本检测算法, 比较具有代表性的有textb ox, CTPN等, 第二种是基于分割的文 本检测, 代表性的算法有PSEnet, PANnet, DBnet等, 第三种是基于角点的文本检测, 代表性 算法有ATR R等; [0003]目前的方法通过使用把文本框拆分小文本框预测来解决感受野不足的问题, 但是 这种方式会带来一个问题, 后处理合并小文本框只能根据设定的距离阈值判定停止, 这样 对于两个位置相 近的文本容易合并到一起, 也就是所谓的粘连问题。 本专利的核心就在于 通过聚类的方式改进 文本的合并, 解决文字检测粘连问题, 使得文本检测的检测精度提升 。 发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷, 提供一种基于聚合分离思想的 改进型文本检测方法。 [0005]本发明提供了如下的技 术方案: [0006]本发明提供一种基于聚合分离思想的改进型文本检测方法, 包括以下步骤: [0007]一、 构建整体的网络模型架构, 这里backbone使用的是vgg16的前5层卷积网络, 假 设图片大小为N*M, 经过该层后map大小变成了N/16*M/16,我们构建了一个img2col层来提 取map的领近3*3的特征向量, 因为map输 出的channel为512, 经过img2col后channel增加到 了512*9, 为了增加准确率, 我们对宽度方向接了一个LSTM来联系上下文, 这样可以提升文 字间距大的文本的检测效果; 最后, 我们接了一个FC来进一步融合特征, 最终我们模型有3 个输出, 输出2K个坐标, 这里坐标代表anchor中心点的y坐标偏移和缩放比例; 输出2k个 score, 代表着anchor是否为文本, 输出4K个聚合向量, 用来判别anchor是否属于同一类, 其 中K代表K种高度的anc hor, 这里设置为12; [0008]二、 损失函数构建 [0009]根据网络 输出, 我们需要构建小 文本的之间的聚类, 于是我们构建如下损失函数: [0010] 说 明 书 1/4 页 3 CN 114529928 A 3
专利 一种基于聚合分离思想的改进型文本检测方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 20:41:36
上传分享
举报
下载
原文档
(483.9 KB)
分享
友情链接
T-IMCPNT 001—2024 中国马奶之乡特色产业示范旗建设与管理指南.pdf
GB-T 36558-2018 电力系统电化学储能系统通用技术条件.pdf
GB-T 39243-2020 船用生物可溶性矿物棉制品技术要求及试验方法.pdf
GB-T 7965-2002 声学 水声换能器测量.pdf
GB-T 38548.5-2020 内容资源数字化加工 第5部分:质量控制.pdf
T-CSTM 00591—2022 石墨烯-铜薄膜材料电导率测量 范德堡法.pdf
GB-T 27910-2011 金融服务 信息安全指南.pdf
GB 19079.11-2005 体育场所开放条件与技术要求 第11部分漂流场所.pdf
奇安信 2022年上半年网络安全应急响应分析报告.pdf
美国 关键基础设施信息安全框架 IPDRR.pdf
GB-T 30238-2013 可移动文物保护修复室规范化建设与仪器装备基本要求.pdf
GB-T 32808-2016 阀门 型号编制方法.pdf
易观分析 AIGC产业研究报告2023——三维生成篇pdf.pdf
GB-T 32371.2-2015 低溶剂型或无溶剂型胶粘剂涂敷后释放特性的短期测量方法 第2部分:挥发性有机化合物的测定.pdf
GB-T 39404-2020 工业机器人控制单元的信息安全通用要求.pdf
GB-T 36639-2018 信息安全技术 可信计算规范 服务器可信支撑平台.pdf
GB-T 19001-2016 ISO90012015 质量管理体系要求.pdf
T-CACM 1374.1—2021 中药材规范化生产技术规程通则植物药材.pdf
GB-T 10045-2018 非合金钢及细晶粒钢药芯焊丝.pdf
T-SCCIA 013—2023 机器人通行领域的身份鉴别密码应用指南.pdf
1
/
3
7
评价文档
赞助2元 点击下载(483.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。