文档识别主要应用于学习工作等一些关于文档处理的办公领域,可以快速高效利用OCR技术对文案文档、证书、票据、病历、说明书、简历、合同等各类纸质文档进行识别,另外可以通过云端技术将识别后的内容以及图像上传到服务器进行备份储存,并具备方便的检索功能,可以使用户简单方便的找到备份的内容。
文档识别的优势:
对于现在这种大工作量的公司来说,是相当好的帮手,可以快点识别提取出文档中的文字信息,并进行保存;还可以把识别出来的文字转换成PDF以及Word格式;也可以把表格票据中的信息提取导入到Excel表格中,更便于表格票据中有效信息的保存。
图像预处理:主要包括图像二值化,噪声去除,倾斜较正等算法。
版面分析:将文档图片分段落,分行的算法就叫版面分析算法。
字符切割:字符切割算法主要处理因字符粘连、断笔造成字符难以简单切割的问题。
字符特征提取:对字符图像提取多维的特征用于后面的特征匹配模式识别算法。
字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符的算法。
版面恢复:识别原文档的排版,按原排版格式将识别结果输出到word或pdf等格式文档,叫做版面恢复算法。
后处理校正: 根据特定的语言上下文的关系,对识别结果进行较正的算法。