智能文档处理

Intelligent Document Processing,IDP

IDP是来也科技智能自动化平台的核心能力之一。IDP基于光学字符识别(OCR)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等前沿技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化。


来也科技智能自动化平台-助力政企实现智能时代的人机协同



IDP典型应用场景


01

票据信息抽取

IDP最常见的应用场景之一是从各种类型的文档中抽取关键信息。


企业中存在大量需要从文档中抽取信息并进行处理的业务场景,例如从发票、报销单、发货单等不同类型的文档中抽取所需字段,进行录入、校验、比对等操作。


因此,文档信息抽取是智能文档处理平台的核心能力之一。通常情况下,文档信息抽取需要用到机器学习技术。


训练一个机器学习模型需要一定规模的标注数据,在文档信息抽取任务下训练机器学习模型面临两个挑战:

1.文档的类型繁多。即便是同一个类型的文档,其版式也可能存在多种。

2.很多文档类型是企业特有的,很难提前收集到数据并训练好模型,需要基于企业特有的文档数据,在小样本下训练出可用的模型,否则模型的训练成本太高。


来也科技IDP平台提供强大的文档信息抽取能力,它通过使用视觉和语义信息进行建模,在处理类似发票、证件、发货单、完税证明等文档信息抽取任务时,只需极低的标注成本,就能达到非常好的效果。在遇到新数据格式带来的badcase时,通过少量的标注干预,即可有效的提升效果,让文档处理的自动化变得更加容易。



02

招投标公告处理

IDP的另一个典型应用场景,即利用智能文档处理对大量的招投标文档进行自动抓取、分析和匹配。


工程项目在招标时,通常会在各省市的公共资源交易中心网站上公开发布招标公告,公告内包含对项目信息的基本说明和对投标公司的要求等。有投标意向的公司需要专业的员工去筛选有价值招标公告去投标,但是全国每天有大量(数千篇)新发布的招标公告,公告内包含大量的领域专业信息,形式多种多样(包含段落、列表和表格),因此对于筛选的员工来说压力巨大,需要大量的有经验的员工才能完成。


IDP技术,对海量的招标公告进行结构化处理,提炼出项目信息和投标要求,自动过滤与公司拥有的资质、历史业绩与公告要求不匹配的公告,大幅度减少了市场人员需要阅读的公告数量,减轻基层工作人员的负担。



03

技术标准文档处理

IDP文档智能问答还可进行技术标准文档处理,赋能电网设备管理作业。


电网设备技术标准文档包含了各种设备的参数标准、技术条件、操作规范等内容,是电网员工对设备进行管理作业的基础。电网员工在展开设备运维检修作业时,须严格按照技术标准中的流程规范开展作业,存在大量设备技术标准的检索和问答需求。设备技术标准文档数量庞大,文档内容非常专业和复杂,包含大量专业术语和表格。由于这些原因,员工对于设备技术标准文档的使用效率和质量都不高。


IDP文档智能问答应用在电网设备作业场景中,通过对技术标准文档进行知识提炼和加工,并结合自然语言处理(NLP)、知识图谱(KG)等技术,智能问答系统能够满足业务人员对于文档检索和问答的需求,提升设备管理作业的效率和质量,减轻基层工作人员的负担。该解决方案同样也适用于其他需要对大量文档进行检索和查询的场景,可广泛应用于电力、能源、制造、医药等行业。



RPA+IDP+人机协同中心


04

保险理赔材料审核

在医疗保险理赔申请场景中,理赔专员收到理赔申请后,需要处理各种文档材料,再开始理赔流程。客户提交的理赔申请材料不仅包括理赔申请表,还有医疗证明材料,如检验单、处方单、化验单等多种文档。


这个场景适合采用RPA+IDP的解决方案,RPA机器人自动收集申请材料,利用IDP对各种文档进行分类、信息抽取和分析后,再由RPA机器人完成材料录入的繁琐过程。


但是,IDP对文档进行分类是基于一定的概率来判断的,信息抽取也具有少量的失败率。因此,在形成正式的理赔之前,理赔专员还需要对材料进行审核,检验其完整性、一致性、准确性,对于IDP分类识别有误的地方,需要及时修正后,才能正式开始理赔程序。


通过人机协同中心,可以将RPA、IDP的数据处理工作和理赔专员的审核工作无缝衔接起来。采用RPA和IDP完成数据收集、分类、抽取等前置处理步骤之后,机器人会将原始的单据照片以及处理得到的数据上传到人机协同中心,并等待理赔专员的审核。


理赔专员接收到人机协同中心的任务处理通知后,可以查看数据和表单进行核对;如果有需要修改的数据,直接在人机协同中心上进行修改即可。


人工处理完后,机器人会接收到理赔专员审核修改后的数据,再进行后续的操作步骤。这样,RPA和IDP完成了繁琐的单据信息抽取和整理,理赔专员只要在人机协同中心进行审核,两者配合,可端到端的实现保险理赔材料审核的自动化,在提升效率的同时,又保障了业务的准确性。


人机协同中心

来也科技智能自动化平台中,包含了名为“人机协同中心”的产品,其作用是将需要人工判断、决策的任务分配给工作人员,由工作人员通过表单信息输入、信息二次核查确认等操作,为机器人提供精准的输入,从而在一个自动化流程中,紧密衔接人工与机器人的协同工作。