说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210904127.0 (22)申请日 2022.07.29 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 张鹏远 李长亮 (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 孙翠贤 孟维娜 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/148(2022.01) G06T 7/73(2017.01) G06V 30/19(2022.01) G06V 30/18(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 表格识别方法、 装置、 电子设备及可读存储 介质 (57)摘要 本发明实施例提供了一种表格识别方法、 装 置、 电子设备及可读存储介质, 应用于计算机视 觉领域, 该方法包括: 从目标图像中, 分割表格区 域, 得到表格图像; 利用预先训练完成的表格识 别模型, 识别表 格图像中的表格结构以及单元格 的位置信息; 其中, 表格识别模型包括用于提取 所述表格图像的图像特征的编码层, 以及用于生 成表格结构 的解码层; 解码层的输入为: 编码层 的输入内容及编码层的输出内容; 识别表格图像 的文本区域以及文本区域中的文本内容; 基于单 元格的位置信息、 表格结构、 文本区域以及文本 区域中的文本内容, 生成电子表格文件。 通过本 方案, 可以提高表格识别的准确度。 权利要求书3页 说明书15页 附图4页 CN 115273112 A 2022.11.01 CN 115273112 A 1.一种表格识别方法, 其特 征在于, 所述方法包括: 从目标图像中, 分割表格区域, 得到表格图像; 利用预先训练完成的表格识别模型, 识别所述表格图像中的表格结构以及单元格的位 置信息; 其中, 所述表格识别模 型包括用于提取所述表格图像的图像特征的编码层, 以及用 于生成所述表格结构的解码层; 所述解码层的输入为: 所述编码层的输入内容及所述编码 层的输出内容; 识别所述表格图像的文本区域以及所述文本区域中的文本内容; 基于所述单元格的位置信息、 所述表格结构、 所述文本区域以及所述文本区域中的文 本内容, 生成电子表格文件。 2.根据权利要求1所述的方法, 其特征在于, 所述解码层包括第一网络层, 以及位于所 述第一网络层之后且并列的第二网络层和 第三网络层; 所述第一网络层包括一个自注意力 机制transformer层; 所述第二网络层用于对 所述表格图像中的单元格的位置进 行识别, 且 包括两个十字形窗口自注意力机制cswin transformer层; 所述第三网络层用于对所述表 格图像中的表格结构进行 预测, 且包括一个自注意力机制t ransformer层。 3.根据权利要求1所述的方法, 其特征在于, 所述表格结构为利用超文本语言进行表征 的结构。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述从所述目标图像中, 分割表 格区域, 得到表格图像, 包括: 利用预先训练完成的图像特 征提取网络提取 所述目标图像的图像特 征; 基于所述目标图像的图像特征, 识别所述目标图像中的表格的候选位置, 得到针对所 述表格的候选位置的识别结果; 利用非极大值抑制算法, 去除所述识别结果中重 叠的结果, 得到所述表格的目标位置; 从所述目标图像中, 提取 所述表格的目标位置处的图像区域, 得到表格图像。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述识别所述表格图像的文本区 域以及所述文本区域中的文本内容, 包括: 利用预先训练完成的文本区域识别网络, 以及预先提取的文字区域特征图, 识别所述 表格图像中的文本区域; 其中, 所述文本区域识别网络为可微二值化网络DBNet; 所述文字 区域特征图为经 过卷积块注意力模块处 理后的特 征图; 对所述文本区域进行文本识别, 得到所述文本区域中的文本内容。 6.根据权利要求5所述的方法, 其特征在于, 所述对所述文本区域进行文本识别, 得到 所述文本区域中的文本内容, 包括: 利用预先训练完成的文本识别网络识别所述文本区域的文本内容; 其中, 所述文本识 别网络为利用指定综合损失训练得到的网络; 其中, 所述指定综合损失为基于神经网络的 时序类分类损失和聚合交叉熵损失进行融合后所 得到的综合损失。 7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 所述基于所述单元格的位置信 息、 所述表格结构、 所述文本区域以及所述文本区域中的文本内容, 生成电子表格文件, 包 括: 基于所述单元格的位置信 息、 所述表格结构, 以及所述文本区域, 确定每一所述文本区 域中的文本内容所对应的表格结构中的位置;权 利 要 求 书 1/3 页 2 CN 115273112 A 2将每一所述文本区域中的文本内容填入对应的结构序列的位置中, 生成利用超文本语 言进行表征的表格。 8.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 当接收到针对所述目标图像的视觉问答指令时, 获取所述视觉问答指令中的目标问 题; 确定所述目标问题对应的答案内容。 9.根据权利要求8所述的方法, 其特征在于, 所述确定所述目标问题对应的答案内容, 包括: 将所述目标图像的图像特征、 所述单元格的位置信息、 所述文本区域、 所述文本区域中 的文本内容, 以及所述 目标问题输入预先训练完成的视觉 问答模型, 生成所述目标问题对 应的答案内容; 其中, 所述视觉问答模 型为利用样本表格图像、 所述样本表格图像中的每一 文本区域、 所述样本表格图像的文本内容、 所述样本表格图像的图像特征, 输入的问题以及 对应的答案内容的真值, 训练得到的BERT预训练模型。 10.一种表格识别装置, 其特 征在于, 所述装置包括: 分割模块, 用于从目标图像中, 分割表格区域, 得到表格图像; 第一识别模块, 用于利用预先训练完成的表格识别模型, 识别所述表格图像中的表格 结构以及单元格的位置信息; 其中, 所述表格识别模型包括用于提取所述表格图像的图像 特征的编 码层, 以及用于生 成所述表格结构的解码层; 所述解码层的输入为: 所述编 码层的 输入内容及所述编码层的输出内容; 第二识别模块, 用于识别所述表格图像的文本区域以及所述文本区域中的文本内容; 生成模块, 用于基于所述单元格的位置信 息、 所述表格结构、 所述文本区域以及所述文 本区域中的文本内容, 生成电子表格文件。 11.根据权利要求10所述的装置, 其特征在于, 所述解码层包括第一网络层, 以及位于 所述第一网络层之后且并列的第二网络层和 第三网络层; 所述第一网络层 包括一个自注意 力机制transformer层; 所述第二网络层用于对 所述表格图像中的单元格的位置进行识别, 且包括两个十字形窗口自注意力机制cswin transformer层; 所述第三网络层用于对所述 表格图像中的表格结构进行 预测, 且包括一个自注意力机制t ransformer层。 12.根据权利要求11所述的装置, 其特征在于, 所述表格结构为利用超文本语言进行表 征的结构。 13.根据权利要求10 ‑12任一项所述的装置, 其特 征在于, 所述分割模块, 包括: 第一提取子模块, 用于利用预先训练完成的图像特征提取网络提取所述目标图像的图 像特征; 第一识别子模块, 用于基于所述目标图像的图像特征, 识别所述目标图像中的表格的 候选位置, 得到针对所述表格的候选位置的识别结果; 去除子模块, 用于利用非极大值抑制算法, 去除所述识别结果中重叠的结果, 得到所述 表格的目标位置; 第二提取子模块, 用于从所述目标图像中, 提取所述表格的目标位置处的图像区域, 得 到表格图像。 14.根据权利要求10 ‑13任一项所述的装置, 其特 征在于, 所述识别模块, 包括:权 利 要 求 书 2/3 页 3 CN 115273112 A 3
专利 表格识别方法、装置、电子设备及可读存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 12:08:32
上传分享
举报
下载
原文档
(668.5 KB)
分享
友情链接
华为 工业互联网白皮书 工业知识与ICT技术深入融合 2020.pdf
T-ZZB 0478—2018 风机用无刷直流电机.pdf
DB65-T 4595—2022 高压开关柜局部放电在线监测装置技术规范 新疆维吾尔自治区.pdf
GB-T 25027-2018 搪玻璃开式搅拌容器型式、主要尺寸及基本参数.pdf
GB-T 42131-2022 人工智能 知识图谱技术框架.pdf
DB23-T 3281—2022 信息化项目应用系统预上线管理规范 黑龙江省.pdf
GB-T 24353-2022 风险管理指南 .pdf
DB11-T 1854-2021 公共建筑室内照明系统节能监测 北京市.pdf
长江证券 软件与服务行业研究-信创系列深度之GPU 破晓而生踏浪前行.pdf
DB63-T 2086-2022 水利水电工程堆石混凝土坝施工质量检验与评定规范 青海省.pdf
GB-T 35281-2017 信息安全技术 移动互联网应用服务器安全技术要求.pdf
GB-T 4879-2016 防锈包装.pdf
T-CAB 0228—2022 组织节能降碳绩效评价通则.pdf
GB-T 20988-2007 信息安全技术 信息系统灾难恢复规范.pdf
专利 一种基于图结构的网络安全数据处理方法和系统.PDF
等保三级-安全管理-系统运维管理.doc
GB-T 20258.4-2019 基础地理信息要素数据字典 第4部分:1∶250 000 1∶500 000 1∶1 000 000 比例尺.pdf
GB-T 42449-2023 系统与软件工程 功能规模测量 IFPUG方法.pdf
GB-T 42767-2023 城市垃圾收集装置设置通用要求.pdf
GB-T 40857-2021 汽车网关信息安全技术要求及试验方法.pdf
1
/
3
23
评价文档
赞助3元 点击下载(668.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。