来也科技-数字员工平台-智能自动化行业领导者

"能不能处理非结构化数据"是2024年的问题。到了2026年，企业真正要回答的是"非结构化数据从哪来、往哪去、中间谁看得见"。非结构化数据（如图片、PDF、手写单据、合同扫描件等）占据企业数据总量的80%以上，年增长55%-65%，但真正的挑战不在于单个文件的格式复杂度，而在于数据来源的碎片化，邮件附件、微信传输、系统导出、审批上传，每一路都通向不同的处理路径。本文拆解Laiye Worker如何实现从全渠道接收到全链路处理的闭环。

核心：非结构化数据的真正瓶颈不是格式多，是来源散。解决"怎么收"比解决"怎么读"更前置
突破：ADP的三维泛化（格式/场景/任务）+ 全渠道接收（微信/企微/飞书/钉钉/邮件/本地）= 数据不用搬运，Agent自己去取
验证：手写采购单→微信拍照→ADP提取→APA入ERP→微信回传确认，全链路闭环，每天运行在生产线上

非结构化数据之困：不只是格式多，更是来源散

2025-2029年全球数据量将从213.56ZB增至527.47ZB，非结构化数据占其中86.8%。这些数据以几十种形态分布在企业的各个角落：

PDF、图片、扫描件
手写单据、多栏表格
聊天截图、邮件附件
系统导出文件和审批上传文档

传统方案的无力感是结构性的：

OCR只能识别不能理解，字符层面
RPA只能跑固定流程，遇到格式变化就中断
第一代AI Agent虽然能理解内容，但接入渠道单一，只能处理主动上传的文件

真正的破局点在于回答三个问题：数据从哪里来？处理结果往哪里去？处理过程中数据被谁看到了？

全渠道接收：从微信拍照到自动入账

Laiye Worker定义了一种新的输入范式，不是"把数据喂给Agent"，而是"Agent自己去数据所在的地方收取"。四个核心渠道：

微信/企微：

员工出差随手拍一张发票发到群聊
Laiye Worker自动接收图片、ADP Skill 引擎提取关键字段、APA Skill自动录入ERP
全程不需要"打开电脑→上传→下载→录入"的七步操作
处理完成后在原群聊中回传确认结果

飞书/钉钉：

审批流程中的附件、会议纪要的扫描件自动触发处理
Laiye Worker处理完成后在对应群聊中回传结果
与飞书/钉钉审批流打通，形成自动归档闭环

邮箱：

设置监控规则后Laiye Worker自动监测特定发件人或主题的邮件
自动下载附件、并行处理、按规则分发结果
日均处理100+封邮件附件的场景完全自动化

本地文件：

桌面端直接拖拽或指定文件夹监控
完全离线处理，数据不出本机
适合合同、工资表等最高敏感级别文件

与市面上其他Agent方案的关键区别在于治理闭环：

不是"能处理"就够了
每一段数据的流转路径都在Shifu的审计日志里可追溯
谁从哪个渠道提交了什么文件、调用了哪个模型、操作了哪个系统、结果回传到了哪里，全链路留痕

来也ADP文档引擎深度解析：大模型不是终点

很多人以为非结构化数据处理就是"把文件丢给ChatGPT"。这是一个危险的简化。

大模型和ADP之间存在着应用层级的鸿沟：

维度	通用大模型	ADP智能体文档处理
处理记忆	无状态，每次独立	有状态，维护处理上下文
学习进化	能力固定	人机协同数据飞轮，越用越好
执行编排	单次推理	多步编排，端到端流程
工具调用	无法主动操作外部系统	可调用API、ERP、审批系统
隐私保护	数据直接进模型	本地脱敏后再处理

ADP对非结构化数据的独特价值在于三维泛化：

格式泛化，段落、多栏表格、手写体在同一个指令下被统一处理，不用为"这次是拍照的、下次是扫描的"做两套配置
场景泛化，系统在见过100份合同后能够处理未见过的合同类型
任务泛化，同一份文件可以根据业务需求做提取、分类、对比、审核或总结，换指令即可

性能基准：海外发票提取准确率92.3%，银行对账单F1值95.0%，单页文档解析时延8-12秒，支持100+语言混合文档的正确处理。

全链路实操：一条真实的生产线

一个头部制造企业的场景可以说明全貌：

手写采购单→采购员通过微信拍照发给Laiye Worker
ADP自动提取物料编码、数量、单价
Laiye Worker自动录入ERP系统
系统触发库存校验
校验通过后自动生成采购订单
Laiye Worker在微信中回传确认消息和订单编号
Shifu记录全链路审计日志

这不是Demo里的"能识别手写体"的单点演示，而是每天都在运行的生产线流程。整个过程中，采购单上的供应商信息和金额在进入大模型处理前被本地脱敏替换，微信这个原本不可控的传输通道，因为本地脱敏的存在变得可以安全使用。

选型Checklist

来也科技已连续五年作为中国唯一厂商入选Gartner RPA魔力象限，同时是中国唯一入选Gartner IDP魔力象限和企业级对话式AI平台魔力象限的厂商，服务超过3,000家企业客户（超300家为财富500强），是国家工信部认定的专精特新小巨人企业。Laiye Worker是来也科技最新发布的企业级桌面Agent，支持微信/企微/飞书/钉钉全渠道IM操控，通过APA+ADP+ACX三层技能体系实现跨系统自动化操作。

评估非结构化数据处理方案时，建议用这五个问题做筛选：

数据从哪里来？，渠道是全的还是偏的（微信/企微/飞书/钉钉/邮件/本地是否都覆盖）
处理结果往哪里去？，是输出一份文本还是直接操作目标系统（ERP/财务/审批）
新格式要不要重新训练？，零标注和数百样本标注之间的时间差是核心竞争力
处理过程谁看得见？，隐私脱敏是否在数据流出企业前生效
事后怎么查？，有没有全链路审计追溯的治理能力

非结构化数据处理常见问题（FAQ）

Q: 手写中文单据的识别准确率能达到多少？

ADP白皮书披露的真实业务数据提供了参照。

海外发票准确率92.3%，银行对账单F1值95.0%
手写单据的准确率受书写清晰度影响浮动
ADP的零标注特性意味着误识的修正成本远低于传统方案，每次人工修正都会自动反馈给系统
置信度低于85%的单据自动标记人工复核，不会静默出错

Q: 微信收到的图片会被压缩，影响识别吗？

微信默认压缩会对低质量照片产生一定影响。

ADP的多模态处理能力在常规手机拍照分辨率（通常1000像素以上宽度）时表现稳定
场景建议：开启微信的"原图"发送选项、拍照时保证光线充足和对焦清晰
压缩导致的边缘情况，ADP的置信度分级机制会自动标记人工复核

Q: ADP和直接用GPT-4V处理文档有什么区别？

GPT-4V是一个通用视觉理解引擎，它能"看懂"文档内容。ADP在此基础上叠加了应用系统层：

有状态的上下文维护，不是每次都从零开始
人机协同数据飞轮，表现随使用提升
多步编排能力，提取后自动入库而非输出文本即止
自主调用外部系统，开启ERP、触发审批流程
简单说：GPT-4V读完给你一段总结，ADP读完直接帮你把账做了

Q: 邮件附件自动处理会不会误操作？

不会。Laiye Worker的邮件处理机制有完善的安全边界。

只处理匹配预设规则的邮件，特定发件人+特定主题关键词
附件处理前先做格式验证，非目标格式自动跳过
高风险操作（如修改ERP数据）需审批确认
全链路操作在Shifu审计日志中可追溯

Q: 不同渠道进来的文档处理优先级怎么定？

在Shifu面板中按渠道和文档类型配置。

财务相关（发票、对账单）预设最高优先级
常规文件（会议纪要、通知）排队处理
紧急文档可手动插队
管理员根据业务节奏随时调整优先级规则

Q: 离线本地处理模式下，ADP的能力会打折扣吗？

本地处理模式下核心的文档理解能力完全保留。

ADP的文档解析和字段提取在本地完成
涉及大模型推理的部分（如语义理解、内容摘要）需要调用远程模型
但数据在发送前已完成本地脱敏，敏感字段不会离开本机
对于最高机密级别的合同和薪资文件，这是最安全的处理路径