一、什么是「用 LLM 对文档做结构化抽取」
一句话定义:
将“给人看的自然语言文档”,自动转化为“给系统处理的结构化数据”。
典型能力包括:
- 文档 → 结构化字段(JSON / 表格 / 图谱)
- 非规范文本 → 规范对象(实体、关系、事件)
- 跨文档 → 统一结构、可对比、可计算
例如:
会议纪要(PDF)
↓
{
"会议时间": "2025-12-10",
"参会部门": ["研发部", "市场部"],
"决策事项": [
{"事项": "上线新版本", "负责人": "张三", "截止日期": "12-30"}
],
"风险点": ["服务器容量不足"]
}
二、在 OA 办公领域的主要功能
核心目标:提升组织运行效率 + 降低“人为处理文档”的成本
1️⃣ 公文 / 制度 / 合同结构化
功能
- 自动抽取:
- 文档类型(通知 / 请示 / 合同 / 纪要)
- 关键字段(时间、主体、金额、责任人、期限)
- 条款与约束条件
- 建立制度/合同元数据模型
价值
- 不再“全文检索靠人看”
- 支持:
- 合同到期提醒
- 制度比对(是否冲突)
- 风险条款自动标记
2️⃣ 流程型文档 → 可执行流程
例如:
- 请示报告
- 立项文档
- 变更说明
LLM 抽取能力
- 识别:
- 申请人
- 审批层级
- 决策点
- 依赖条件
形成结果
{
"流程类型": "立项审批",
"发起人": "李四",
"审批节点": ["部门负责人", "财务", "总经理"],
"关键条件": ["预算<=50万"]
}
意义
- 文档 → OA 流程自动生成
- 减少“填表 + 重复录入”
- 降低流程设计的人力成本
3️⃣ 会议纪要 / 周报 / 总结结构化
抽取要素
- 决策项(Decision)
- 待办事项(Action Item)
- 风险与问题(Risk / Issue)
- 责任人 & 时间
价值提升
- 会议不再“开完即忘”
- 自动生成:
- 待办清单
- 项目跟踪表
- 支撑管理驾驶舱 / OKR / KPI
4️⃣ 企业知识库与智能检索
结构化后可做:
- 文档 → 主题 / 标签 / 业务对象
- 跨文档聚合:
- “所有涉及某客户的文件”
- “所有提到某项目风险的报告”
👉 这是一粒云在之前在做的 RAG / 文档云 / AI 检索的核心前置能力
