// 01 GLM-OCR 是什么
工具名称
GLM-OCR
项目地址
在线入口:https://ocr.z.ai/
工具类型
开源轻量级多模态光学字符识别模型(OCR)
发布组织
智谱 AI(Zhipu AI)
开源许可
Apache-2.0 开源许可(通常用于开源机器学习模型)
结构化属性表
| 属性 | 描述 |
|---|---|
| 工具名称 | GLM-OCR |
| 类型 | 多模态 OCR 模型 |
| 参数规模 | 0.9B |
| 基准成绩 | OmniDocBench V1.5 ≈ 94.6 |
| 输入 | 文档图片、PDF、扫描件 |
| 输出 | 文本、HTML、JSON |
| 关键技术 | CogViT 编码器、MTP 训练 |
| 推理引擎 | vLLM/SGLang/Ollama |
| 开源协议 | Apache-2.0 |
| 典型应用 | RAG、表格解析、票据识别 |
| 部署方式 | 本地部署 / API 集成 |
核心技术能力
架构设计
GLM-OCR 继承自 GLM-V 编码–解码架构,结合视觉编码器和语言解码器进行 OCR 任务。
视觉端采用自研 CogViT 编码器预训练视觉特征。
使用轻量跨模态连接层和多 Token 预测损失(MTP)提高训练效率与泛化能力。
参数规模与性能指标
参数规模约 0.9B,属于轻量级 OCR 模型设计。
在 OmniDocBench V1.5 基准测试中获得约 94.6 分,综合识别表现领先多数同类模型。
推理效率
支持主流推理引擎部署,例如 vLLM、SGLang 和 Ollama,降低延迟与算力要求。
在实验环境中推理速度可达约 1.86 页/秒(PDF) 和 0.67 张/秒(图片)。
结构化输出
支持将表格转换为 HTML 结构、生成标准 JSON 输出格式,便于下游系统集成。
在复杂版式文档中可输出层级化结构信息。
输入与输出规范
支持输入类型
扫描件、照片与截图形式的文档。
PDF 文档与多页图像序列。
混排语言、手写体和嵌套表格等复杂布局文档。
输出内容类型
文本识别结果(纯文本)。
复杂表格的 HTML 结构化代码。
结构化字段抽取标准 JSON。
公式、代码片段以及混合版式内容识别结果。
功能模块详解
文本识别
能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。
表格解析
支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析,并生成 HTML 输出。
字段结构化提取
可从身份证、票据、发票等文档中提取关键字段,并输出 JSON。
公式与代码识别
识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。
系统要求与部署
推理引擎兼容性
支持 vLLM、SGLang、Ollama 等主流推理后端。
部署环境
可部署于本地服务器、云端容器与边缘节点。
SDK 与工具链
提供开源 SDK、示例代码与命令行工具,简化模型调用与集成。
应用场景
教育与科研文档处理
识别教材扫描件、学术论文与手写笔记,辅助知识整理与数据结构化存储。
企业办公自动化
自动解析合同、会议纪要、发票与报销单,实现纸质文档数字化与字段提取。
金融与保险数据处理
提取票据、保单、银行卡信息等关键字段,生成结构化数据以对接核心业务系统。
后端大规模文档识别
支持高并发批量文档 OCR 服务,为检索增强生成(RAG)和大数据分析构建优质语义底座。
法务与合规审查
结构化识别合同条款、法律文件层级、印章与签名等内容,提升审查效率。
使用流程
1. 获取模型
从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。
2. 安装依赖
配置 Python 环境及推理后端(如 vLLM);安装 SDK 与依赖库。
3. 文档准备
准备目标文档(扫描件、PDF、图片)并考虑清晰度与布局。
4. 运行推理
使用提供的工具链或 Python API 进行 OCR 推理,生成结构化输出。
5. 结果集成
将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。
性能与评估
基准测试成绩
在 OmniDocBench V1.5 上得分约 94.6,在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。
实际场景稳定性
模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。
