智能档处理是来也科技智能自动化平台的核心能力之一。IDP 基于光学字符识别(OCR)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等前沿技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化。
因为企业中存在大量需要从文档中抽取信息并进行处理的业务场景,例如从发票、报销单、发货单等不同类型的文档中抽取所需字段,进行录入、校验、比对等操作。因此,文档信息抽取是智能文档处理平台的核心能力之一。通常情况下,文档信息抽取需要用到机器学习技术。
来也科技 IDP 平台中用到的文档信息抽取方法,是利用文档的视觉特征和语义特征,能够在较少样本的情况下训练出效果很好的模型,且具备较强的泛化能力,从而快速满足企业中多种文档信息抽取的需求。
来也科技智能文档处理技术方案以 OCR 识别的结果作为输入,充分利用视觉和语义信息建模,在低成本(标注数据少、资源占用少)的情况下完成文档信息抽取任务。该方案将 OCR 和信息抽取完全解耦合,这样设计有两个优点:OCR 和信息抽取相互不受影响,可以分别进行优化。同一个 OCR 引擎可以对接不同的信息抽取模型;同理,同一个信息抽取模型也可以对接不同的 OCR 引擎,以满足不同场景下的需求。
来也科技的智能文档处理IDP 平台能提供强大的文档信息抽取能力,它通过使用视觉和语义信息进行建模,在处理类似发票、证件、发货单、完税证明等文档信息抽取任务时,只需极低的标注成本,就能达到非常好的效果。因此,得到了很多客户的认可。