导语
智能文档检索(Intelligent Document Search)是来也科技智能自动化平台的产品应用解决方案之一。智能文档检索基于来也科技对话式AI平台(Conversational AI)和智能文档处理平台(Intelligent Document Processing)等核心产品,对领域内的专业文档首先进行识别、分类、抽取、校验,再通过检索问句的意图识别和关键信息抽取,帮助企业实现专业领域内文档的精确搜索,提升专业人员的工作效率。
本文结合文档智能检索的一个经典应用场景,即利用结合语义分析和智能文档处理的能力提升传统搜索引擎在医药专业领域的效果。对智能文档检索解决方案及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#。
背/景
在医药代表的日常销售工作中,不仅仅需要向客户等提供产品注册证等资质文件,也需要根据具体需求为对方提供更多专业性文献,而这一工作则需要药企专门的【医学信息部】来进行配合文献检索。【医学信息部】需要应对内部及外部、线上及线下共十余种渠道来源的药品咨询及大量文献获取请求,这些文献不仅数量巨大、渠道众多,还往往分布在内外部不同文献数据库之中。针对每条医药代表及医生的需求,医学信息部的工作人员平均需要 1~3 天的时间来进行检索处理,造成巨大人力消耗的同时,对于工作人员的专业判断水平、不同数据库熟悉度也有较高的要求。
为了药企的合规性要求,更及时的服务于内外部,进一步推进药企数智化转型,来也科技利用对话式 AI 和智能文档处理产品,推出了医学文献智能检索机器人,降低药企医学信息检索相关的重复性、耗时的信息检索时长,提升信息检索效率和内外部服务满意度。
解/决/方/案
医学文献智能检索机器人
来也科技智能文档检索(Intelligent Document Search)整体解决方案的设计思路是通过知识图谱(Knowledge Graph)增强检索结果的相关性和准确性;通过来也科技智能文档处理(Intelligent Document Processing)能力自动构建文档知识结构;通过来也科技对话式AI平台(Conversational AI Platform)能力理解用户检索语句,精确理解用户意图及自然语言的检索条件;通过多渠道用户接入,满足不同类型客户的交互方式,既可以通过检索页面(Search Portal)获得检索结果,又可以通过对话机器人(Chatbot)的交互方式获得检索结果。
数据获取
建立智能文档检索系统前,首先需要接入已有的数据源,包括结构化和非结构化数据,并且能够自动获取文档内容的更新。结构化数据包括三元组、csv、Excel、关系型数据库如SQL Server、MySQL、Oracle等;非结构化数据包括文本、文稿、图片等不同格式的文件,支持对不同文件格式的解析,包括利用OCR对图片类文件的解析。另外支持通过RPA(机器人流程自动化)对本地文件、网络文件目录、FTP目录、NFS目录等类型进行遍历、采集和更新。支持多源异构体数据的资源整合,快速构建图谱检索服务。
知识抽取
文档中关于医学的信息通常以非结构化的方式包含在文本或表格中,适合以知识图谱这种结构化的方式进行知识表示,从而得到更加精确的搜索结果。知识抽取也就是知识构建的过程。知识抽取过程一般要经历三个阶段:
本体建模
如果要将知识图谱用于精确的检索,我们需要通过领域的业务特点构建知识图谱的本体(Ontology),本体(Ontology)是用来表征相同类型文档知识结构的,本体建模也就是定义专业领域图谱的概念、属性、关系等内容的设计。预先将文档结构化成为能够向用户展示搜索结果的完整知识结构。举个例子:一篇文章中关于某产品的文本描述,需要首先进行本体建模,也就得到了我们需要抽取的知识结构的目标。
智能文档处理
当我们定义好本体(Ontology),也就是我们希望得到的知识结构后,我们就可以使用智能文档处理( IDP) 技术从文档中抽取出关键信息来构建知识图谱。来也科技智能文档处理提供了多种自然语言处理技术来辅助知识抽取,如医学领域的:
新词发现:无监督的领域内专业词汇挖掘,用于行业词库同义词表的建立
实体关系抽取:由机器挖掘、业务专家审核进行三元组的建立
文本分类:通过文章中的文本描述内容,为文档进行自动分类
多任务文档抽取:通过对文档内容结构进行标注,结合多维特征,实现智能抽取模型的训练
人工标注
同时,利用人机结合(Human in the Loop),由专业的业务人员、药师等不断进行自动标注外的人工标注和审核,进一步扩大知识检索的范围。
最终形成适用于当前业务领域的百万量级三元组、高度准确及不断学习的行业图谱。
知识图谱
知识图谱由三元组构成,三元组的内容既可以是(实体1,关系,实体2)这种形式,代表两个实体之间的关系,也可以是(实体、属性,属性值)这种形式,代表某个实体的某个属性,通过管理三元组来维护领域内的知识结构。知识图谱构建完成以后,不断有新的文档新的知识补充进来,所以知识融合和冲突消解的过程会在使用的过程中不断进行。
语义理解
为什么要结合语义理解的能力来进行文档检索?当药企职员想要一篇文献时,往往无法准确说出文献名称,而是通过记忆中对某篇文章的特性和片段的结合,通过自然语言的描述进行文献的查找。如:
用户输入:找一篇上个月发表的李红写的有关儿童肺炎用药的文章
在这个问题中,我们基于对话式AI中强大的语义理解能力,在此处语义理解主要包含两个部分:意图识别与条件提取。
意图识别,就是对用户的核心意图进行识别和判断,得到用户意图是“帮忙找一篇文献的原文”。
条件提取,就是在意图确定后,根据提取到的条件信息进行数据的查询,这个例子当中找文献的条件包括
检索服务
当我们通过语义理解提取了用户意图和条件要素后,就可以进行结构化条件的检索和召回。这里用户的意图我们可以分为几种类型,分别是全文检索、问答检索、条件检索和推理检索,每种类型的意图可以对应不同的检索方式。
检索召回后,可以根据检索的结果进行答案融合和重新排序。除了默认按照相关性算法匹配的结果排序外,排序策略支持根据业务属性的自定义,如通过标签匹配个数排序,通过不同标签的权重排序,通过时间的排序等,并且可以通过不同用户的用户画像,进行个性化的检索结果回复。
效/果/评/估
本方案帮助客户搭建了数十万级三元组的医学图谱,在万级文档检索的响应时间为百毫秒级,四种分类下的意图覆盖70%以上的检索语句,语义识别准确率85%以上。
通过构建文献知识图谱,支持前台业务人员通过“一句话”完成文献检索,检索结果包含文字及动态图形,医药代表、药师等业务用户,可以根据需求直接在图形上进行扩展检索,平均获取文献的时间从前文所提的几天缩短至 10 秒左右,不仅让医药代表及医生的需求得到了更快的满足,也极大程度的提高了各数据库系统的利用率,目前本方案已经赋能客户多条不同的业务线。
在当今数字化转型大趋势下,相比外部业务转型,企业内部自身办公方式的数字化也尤为重要,而其中信息搜索将花去我们近三成的工作时间,这有可能会成为限制企业快速发展的最大的拦路虎之一。打造一款优秀的企业级智能文档搜索引擎,成为每个企业掌门人都需要仔细思考的问题。令其成为企业知识共享中心,帮助企业每一名员工提高生产力,经过持续的优化升级,它一定会成为一名屹立在企业知识中心的巨人,让每一名员工在它的肩膀上都能望向更远更璀璨的远方!
随着人工智能产品的普及,越来越多的企业在其内部员工赋能等场景中应用全自动或半自动的智能解决方案来实现降本增效,尤其是面对疫情期间的人力资源紧张,智能化转型已经成为政企的一条必然道路。来也科技也将持续进行产品、服务及解决方案打磨,在业务前端,通过对话式 AI 与终端用户交互,理解并收集信息;在后端,通过机器人流程自动化(RPA)和智能文档处理(IDP)自动化处理结构化和非结构化信息并执行任务,形成贯穿整条业务线的“端到端智能自动化解决方案”。