作为目前科技圈较为火热的领域,RPA(机器人流程自动化),通过模拟人类的交互完成重复性事务,用于自动化处理重复、规则明确、并且需要人类切换不同系统才能完成工作的软件机器人。
如果给RPA机器人输入一份扫描件或者一张图片,它该如何处理?这里不得不要提到一项技术,那就是——光学字符识别(OCR)。
光学字符识别
所谓光学字符识别(Optical Character Recognition,OCR)技术,是指基于电子设备(如扫描仪或数码相机)扫描件的文字,通过 OCR 技术检测扫描件上暗、亮的模式以确定文字的形状,然后用字符识别方法将形状翻译成文字的过程。整个过程是首先需要对纸质文本资料进行扫描,然后对图像文件进行分析处理,最后获取文字及版面信息。
尽管目前早已推行无纸化办公,但企业员工在实际的业务办理过程中,仍然需要与真实的物理世界打交道,小到发票识别、文档识别、银行卡和身份证的识别,大到广告、海报的识别。而 RPA 却不能直接读取这些图像信息,因此需要借助 OCR 技术。
如果遇到需要识别远程桌面或无法获取本地桌面的字段的情况,也需要借助 OCR 技术来识别。例如,财务领域的自动化应用中,经常需要利用 OCR 技术对发票进行识别和处理。
传统的OCR技术需靠人工来判断和校正,特别是对于手写文字、印章、套打、压盖等,识别率不高。虽然 OCR 技术已经发展多年,也在金融机构的票据中心、单证中心、财务共享中心得到广泛使用,但直到今天,人工介入的环节还是不可避免。人工介入的环节如何更少,人工介入后的处理如何更便捷,才是自动化领域专家需要考虑的问题。
解决 OCR 识别率的2个方面
在自动化领域,主要通过两个方向来解决 OCR 的识别率问题:一是技术方向,一是业务方向。
1-技术方向
即通过人工智能技术与 OCR 技术相结合的方式来提升识别率,特别是对于特殊文字的识别,如手写、压盖等。智能字符识别(Intelligent Character Recognition,ICR)这个名词也因此而产生。
大多数 ICR 都带有一个自学习系统,借助于机器学习(ML)和卷积神经网络(CNN)技术,自动更新识别库,并通过前期对大量字符集进行标注和训练,逐步形成所需要的神经网络模型。
另外, ICR 还可以通过配置不同的识别引擎并相互校验的方式来进行识别。每个引擎都会被赋予选择性投票权以确定字符的可信度。因为各种识别引擎的专长是不一样的,有的善于识别数字,有的善于识别英文,有的善于识别中文等。所以,用户需要根据识别的内容类型自动选择识别引擎或配置不同引擎的投票权重。
2-业务方向
除技术方向外,另一个就是业务方向,即利用业务管理手段来帮助 OCR 提高识别率。例如,采用统一的高拍仪或扫描仪按照规范来获取图像,而避免个人手机拍摄因为手机的差异、拍摄角度和光线的差异导致识别率降低。
例如,加入预校验功能,即事先排除那些低识别率的扫描件,直接转入人工处理,而避免流程进入大批量处理后,再由人工处理。例如,采用在需要比对的系统用户界面上直接附着已经切割好的图像切片,这样就避免了用户的双屏来回切换以寻找对比要素的过程。类似的业务调整和管理手段还有很多,最终目的都是希望减轻业务人员的工作量,提高工作质量和效率 。
搭载OCR的RPA应用普遍
OCR与RPA的结合可以将组织中超过70%的无纸化业务实现自动化,其效率将是人工的5倍以上。
搭载OCR的RPA在财税、物流、医疗、金融、保险、传统制造业等领域都有着广泛的应用。
搭载OCR的RPA主要用于简化纸质业务并将其转化成数字化业务,例如:PDF、扫描文件、纸质发票、传真和手写文档等。其适用的行业包括:金融行业(员工入职、客户开户、贷款申请、数据校审等)、制造行业(订单处理、汇款、仓库盘点等)、人力资源(员工入职、筛选简历、人力资源记录处理等)、供应链管理(订单和货运跟踪、提货单、货物订单等)。
如此多的领域朝着智能化和物流数字化方向发展,都要求具有高效稳健的OCR技术,通过机器自动识别图片文字的智能化应用前景十分可观。
目前一些大型企业已经开始采用搭载OCR技术的RPA来实现更多范围内的自动化操作。在没引入RPA之前,百事公司在欧洲最大的四家实体仍然要求人们手动输入发票数据和贷款通知单信息。OCR-RPA的出现,增强了现有流程。百事将其应用到了一项涉及40,000页、代表五种语言的内容录入上。尽管项目规模和内容的多语言性质,但OCR-RPA的表现依然出色。
全球保险公司苏黎世在其数字化转型中,也认为RPA、OCR以及NLP(自然语言处理)是实现这一目标的最佳方式。苏黎世应用这三项技术,在短短的6周时间内,便实现了25%的成本缩减,同时还提高了38%的数据处理准确率。释放了企业员工更多的时间,节省下的时间则可以用于附加值更高的任务上,从而提高客户体验。