来也科技最佳技术创新、实践、业界前沿技术解读均呈现于此,帮助您更快速的了解行业内最新动态与技术
复选框(Checkbox)是文档中常见的一种符号,用来获取人们的意见反馈、选择意愿。如项目报表、医疗清单、物料清单、调查报告、菜单等。因为复选框包含着非常重要的信息,所以除了要准确识别文字内容外,还需要检测复选框的位置、识别复选框的状态、关联复选框的描述文字范围。
随着互联网上的文本资源日益丰富,用户逐渐需要耗费大量的时间查找所需信息,并且很难有充足的时间阅读和理解完整的篇章,同时文本中存在着大量的重复和不重要的内容,因此对文档中的信息形成精炼的摘要就显得尤为迫切和重要,而手动形成摘要费时费力,自动摘要就成了解决这一问题的直观方式。
为了解决智能文档中的SER: 语义实体识别 (Semantic Entity Recognition)和RE: 关系抽取 (Relation Extraction)问题,综合了目前现有的各种方案,基于可解释性、人工特征注入的便捷性、模型的推理速度、预训练模型等因素,我们选择了基于图卷积的模型来解决上述的问题,在下文我们将从图卷积原理、特征工程、来也的图卷积模型、自监督任务设计、其他优化几个方面阐述我们所做的工作。
如今基于数据驱动的任务对话系统在产业界已有落地。虽然这些产品依然沿用模块化的流程系统,但在各个模块上做了很多可喜的改动,使得当前的对话系统从搭建到使用都有了长足的进步,尤其不需要手动定义状态空间和对话流程这一点。今天我们一起回顾一下对话管理的技术发展路线,并探讨数据驱动对话管理在产业界的落地情况。
本文总结了在OCR的核心任务--文本识别上应用自监督学习的近期进展,可与来也技术团队之前两篇公众号文章,《自监督学习在计算机视觉领域中的使用简介》和《MoCo系列自监督学习模型和在来也业务中的实践》一起阅读。
本系列文章我们重点关注机器学习平台的技术难点及其在Kubernetes云原生底座之上的解决方案。覆盖编排、调度、存储、通信、推理等方方面面。本文是系列的第一篇:编排调度篇。
智能文档处理(IDP)可帮助企业实现日常文档处理工作的自动化,在文档识别、分类、信息抽取和比对等各个方面,为企业工作人员提供帮助。印章识别是智能文档处理中一种重要的识别能力,广泛应用在合同比对,出入库审核以及发票报销等场景。以往这些工作环节中需要人工对印章图像进行核对校验,流程繁冗,而使用OCR技术进行印章自动识别则可为企业有效节省用工成本。
在C10M secret中,Errata Security 的首席执行官Robert Graham提出了一个观点:The Kernel Is The Problem, Not The Solution,他说如果想要解决C10M实现高性能,需要从以下三个方面入手……本篇博客就讲讲调度相关的协程。
最近开发的一个新项目,构建工具从 Webpack 转换到了 Vite,开发体验有了惊人的提升: 冷启动从 10+s 下降至 2s(有缓存时 1s 以内) 热更新从 2s 下降至 1s 以内