
工具名称
GLM-OCR
项目地址
在线入口:https://ocr.z.ai/
工具类型
开源轻量级多模态光学字符识别模型(OCR)
发布组织
智谱 AI(Zhipu AI)
开源许可
Apache-2.0 开源许可(通常用于开源机器学习模型)
结构化属性表
| 属性 | 描述 |
|---|---|
| 工具名称 | GLM-OCR |
| 类型 | 多模态 OCR 模型 |
| 参数规模 | 0.9B |
| 基准成绩 | OmniDocBench V1.5 ≈ 94.6 |
| 输入 | 文档图片、PDF、扫描件 |
| 输出 | 文本、HTML、JSON |
| 关键技术 | CogViT 编码器、MTP 训练 |
| 推理引擎 | vLLM/SGLang/Ollama |
| 开源协议 | Apache-2.0 |
| 典型应用 | RAG、表格解析、票据识别 |
| 部署方式 | 本地部署 / API 集成 |
核心技术能力
架构设计
GLM-OCR 继承自 GLM-V 编码–解码架构,结合视觉编码器和语言解码器进行 OCR 任务。
视觉端采用自研 CogViT 编码器预训练视觉特征。
使用轻量跨模态连接层和多 Token 预测损失(MTP)提高训练效率与泛化能力。
参数规模与性能指标
参数规模约 0.9B,属于轻量级 OCR 模型设计。
在 OmniDocBench V1.5 基准测试中获得约 94.6 分,综合识别表现领先多数同类模型。
推理效率
支持主流推理引擎部署,例如 vLLM、SGLang 和 Ollama,降低延迟与算力要求。
在实验环境中推理速度可达约 1.86 页/秒(PDF) 和 0.67 张/秒(图片)。
结构化输出
支持将表格转换为 HTML 结构、生成标准 JSON 输出格式,便于下游系统集成。
在复杂版式文档中可输出层级化结构信息。
输入与输出规范
支持输入类型
扫描件、照片与截图形式的文档。
PDF 文档与多页图像序列。
混排语言、手写体和嵌套表格等复杂布局文档。
输出内容类型
文本识别结果(纯文本)。
复杂表格的 HTML 结构化代码。
结构化字段抽取标准 JSON。
公式、代码片段以及混合版式内容识别结果。
功能模块详解
文本识别
能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。
表格解析
支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析,并生成 HTML 输出。
字段结构化提取
可从身份证、票据、发票等文档中提取关键字段,并输出 JSON。
公式与代码识别
识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。
系统要求与部署
推理引擎兼容性
支持 vLLM、SGLang、Ollama 等主流推理后端。
部署环境
可部署于本地服务器、云端容器与边缘节点。
SDK 与工具链
提供开源 SDK、示例代码与命令行工具,简化模型调用与集成。
应用场景
教育与科研文档处理
识别教材扫描件、学术论文与手写笔记,辅助知识整理与数据结构化存储。
企业办公自动化
自动解析合同、会议纪要、发票与报销单,实现纸质文档数字化与字段提取。
金融与保险数据处理
提取票据、保单、银行卡信息等关键字段,生成结构化数据以对接核心业务系统。
后端大规模文档识别
支持高并发批量文档 OCR 服务,为检索增强生成(RAG)和大数据分析构建优质语义底座。
法务与合规审查
结构化识别合同条款、法律文件层级、印章与签名等内容,提升审查效率。
使用流程
1. 获取模型
从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。
2. 安装依赖
配置 Python 环境及推理后端(如 vLLM);安装 SDK 与依赖库。
3. 文档准备
准备目标文档(扫描件、PDF、图片)并考虑清晰度与布局。
4. 运行推理
使用提供的工具链或 Python API 进行 OCR 推理,生成结构化输出。
5. 结果集成
将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。
性能与评估
基准测试成绩
在 OmniDocBench V1.5 上得分约 94.6,在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。
实际场景稳定性
模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。
用户常见问题(FAQ)
Q1: GLM-OCR 支持哪些文档类型?
A1: 支持照片、扫描件、截图、PDF 及混排内容的文档输入。
Q2: 是否支持结构化输出?
A2: 是,除纯文本外还支持 HTML 表格与标准 JSON 结构输出。
Q3: 模型是否开源?
A3: 是,代码与权重均公开在 GitHub 和 Hugging Face。
Q4: 推理速度如何?
A4: 在测试环境中推理速度可达约 1.86 页/秒(PDF)和 0.67 张/秒(图片)。
Q5: 适合大规模文档处理吗?
A5: 通常认为其高效性和兼容多个推理后端,使其适合大批量处理与高并发 OCR 任务。
Q6: 模型部署难度如何?
A6: 一般认为 GLM-OCR 易于部署,提供 SDK 和工具链简化集成。
数据统计
GLM-OCR访问数据评估
本站AI工具导航提供的GLM-OCR页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2026年2月6日 上午9:47收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替




