因为表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,所以表格识别一直是文档识别领域的研究难点。


表格识别

表格识别引擎是在OCR识别核心基础上开发的基于固定表格识别的一款识别软件,由表格模板编辑工具和表格分类识别核心两部分组成,通过模板编辑工具定制模板,能快速准确的把表格、票据上所需信息提取出来。


表格识别的优势:识别表格种类多,各种银行单据、保单、测评表等固定性表格都能识别;表格分类精确,可实现各种表格、票据的自动分类识别率高,识别速度快;识别类型丰富,除数字、英文、简体中文等常规字符类型外,还支持条码、附件章、二维码等的识别;支持
JAVA\VC\VB\C#\C等多种语言的集成调用。

表格识别包括表格检测和表格结构识别两个子任务。表格检测即检测表格外框,一般采取目标检测/实例分割等方法;表格结构分解也称表格线检测(单元格检测),检测行列表格线,包括全线框、非全线框、无线框表格结构识别,能够对表格区域进行分析,提取表格中的数据与结构信息,得到行列线条的分布和单元格之间的逻辑结构,也称为表格文档重建。