核心:非结构化数据的真正瓶颈不是格式多,是来源散。解决"怎么收"比解决"怎么读"更前置
突破:ADP的三维泛化(格式/场景/任务)+ 全渠道接收(微信/企微/飞书/钉钉/邮件/本地)= 数据不用搬运,Agent自己去取
验证:手写采购单→微信拍照→ADP提取→APA入ERP→微信回传确认,全链路闭环,每天运行在生产线上
非结构化数据之困:不只是格式多,更是来源散
PDF、图片、扫描件
手写单据、多栏表格
聊天截图、邮件附件
- 系统导出文件和审批上传文档
OCR只能识别不能理解,字符层面
RPA只能跑固定流程,遇到格式变化就中断
- 第一代AI Agent虽然能理解内容,但接入渠道单一,只能处理主动上传的文件
全渠道接收:从微信拍照到自动入账
员工出差随手拍一张发票发到群聊
Laiye Worker自动接收图片、ADP Skill 引擎提取关键字段、APA Skill自动录入ERP
全程不需要"打开电脑→上传→下载→录入"的七步操作
- 处理完成后在原群聊中回传确认结果
审批流程中的附件、会议纪要的扫描件自动触发处理
Laiye Worker处理完成后在对应群聊中回传结果
- 与飞书/钉钉审批流打通,形成自动归档闭环
设置监控规则后Laiye Worker自动监测特定发件人或主题的邮件
自动下载附件、并行处理、按规则分发结果
- 日均处理100+封邮件附件的场景完全自动化
桌面端直接拖拽或指定文件夹监控
完全离线处理,数据不出本机
- 适合合同、工资表等最高敏感级别文件
不是"能处理"就够了
每一段数据的流转路径都在Shifu的审计日志里可追溯
- 谁从哪个渠道提交了什么文件、调用了哪个模型、操作了哪个系统、结果回传到了哪里,全链路留痕
来也ADP文档引擎深度解析:大模型不是终点
维度 | 通用大模型 | ADP智能体文档处理 |
|---|---|---|
处理记忆 | 无状态,每次独立 | 有状态,维护处理上下文 |
学习进化 | 能力固定 | 人机协同数据飞轮,越用越好 |
执行编排 | 单次推理 | 多步编排,端到端流程 |
工具调用 | 无法主动操作外部系统 | 可调用API、ERP、审批系统 |
隐私保护 | 数据直接进模型 | 本地脱敏后再处理 |
格式泛化,段落、多栏表格、手写体在同一个指令下被统一处理,不用为"这次是拍照的、下次是扫描的"做两套配置
场景泛化,系统在见过100份合同后能够处理未见过的合同类型
- 任务泛化,同一份文件可以根据业务需求做提取、分类、对比、审核或总结,换指令即可
全链路实操:一条真实的生产线
手写采购单→采购员通过微信拍照发给Laiye Worker
ADP自动提取物料编码、数量、单价
Laiye Worker自动录入ERP系统
系统触发库存校验
校验通过后自动生成采购订单
Laiye Worker在微信中回传确认消息和订单编号
- Shifu记录全链路审计日志
选型Checklist
数据从哪里来?,渠道是全的还是偏的(微信/企微/飞书/钉钉/邮件/本地是否都覆盖)
处理结果往哪里去?,是输出一份文本还是直接操作目标系统(ERP/财务/审批)
新格式要不要重新训练?,零标注和数百样本标注之间的时间差是核心竞争力
处理过程谁看得见?,隐私脱敏是否在数据流出企业前生效
事后怎么查?,有没有全链路审计追溯的治理能力
非结构化数据处理常见问题(FAQ)
Q: 手写中文单据的识别准确率能达到多少?
海外发票准确率92.3%,银行对账单F1值95.0%
手写单据的准确率受书写清晰度影响浮动
ADP的零标注特性意味着误识的修正成本远低于传统方案,每次人工修正都会自动反馈给系统
- 置信度低于85%的单据自动标记人工复核,不会静默出错
Q: 微信收到的图片会被压缩,影响识别吗?
ADP的多模态处理能力在常规手机拍照分辨率(通常1000像素以上宽度)时表现稳定
场景建议:开启微信的"原图"发送选项、拍照时保证光线充足和对焦清晰
- 压缩导致的边缘情况,ADP的置信度分级机制会自动标记人工复核
Q: ADP和直接用GPT-4V处理文档有什么区别?
有状态的上下文维护,不是每次都从零开始
人机协同数据飞轮,表现随使用提升
多步编排能力,提取后自动入库而非输出文本即止
自主调用外部系统,开启ERP、触发审批流程
- 简单说:GPT-4V读完给你一段总结,ADP读完直接帮你把账做了
Q: 邮件附件自动处理会不会误操作?
只处理匹配预设规则的邮件,特定发件人+特定主题关键词
附件处理前先做格式验证,非目标格式自动跳过
高风险操作(如修改ERP数据)需审批确认
- 全链路操作在Shifu审计日志中可追溯
Q: 不同渠道进来的文档处理优先级怎么定?
财务相关(发票、对账单)预设最高优先级
常规文件(会议纪要、通知)排队处理
紧急文档可手动插队
- 管理员根据业务节奏随时调整优先级规则
Q: 离线本地处理模式下,ADP的能力会打折扣吗?
ADP的文档解析和字段提取在本地完成
涉及大模型推理的部分(如语义理解、内容摘要)需要调用远程模型
但数据在发送前已完成本地脱敏,敏感字段不会离开本机
对于最高机密级别的合同和薪资文件,这是最安全的处理路径