GLM-OCR

21小时前发布 6 00

GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。

站点语言:
zh
收录时间:
2026-02-06
问小白

工具名称

GLM-OCR

项目地址

工具类型

开源轻量级多模态光学字符识别模型(OCR)

发布组织

智谱 AI(Zhipu AI)

开源许可

Apache-2.0 开源许可(通常用于开源机器学习模型)

结构化属性表

属性描述
工具名称GLM-OCR
类型多模态 OCR 模型
参数规模0.9B
基准成绩OmniDocBench V1.5 ≈ 94.6
输入文档图片、PDF、扫描件
输出文本、HTML、JSON
关键技术CogViT 编码器、MTP 训练
推理引擎vLLM/SGLang/Ollama
开源协议Apache-2.0
典型应用RAG、表格解析、票据识别
部署方式本地部署 / API 集成

核心技术能力

架构设计

  • GLM-OCR 继承自 GLM-V 编码–解码架构,结合视觉编码器和语言解码器进行 OCR 任务。

  • 视觉端采用自研 CogViT 编码器预训练视觉特征。

  • 使用轻量跨模态连接层和多 Token 预测损失(MTP)提高训练效率与泛化能力。

参数规模与性能指标

  • 参数规模约 0.9B,属于轻量级 OCR 模型设计。

  • 在 OmniDocBench V1.5 基准测试中获得约 94.6 分,综合识别表现领先多数同类模型。

推理效率

  • 支持主流推理引擎部署,例如 vLLM、SGLang 和 Ollama,降低延迟与算力要求。

  • 在实验环境中推理速度可达约 1.86 页/秒(PDF)0.67 张/秒(图片)

结构化输出

  • 支持将表格转换为 HTML 结构、生成标准 JSON 输出格式,便于下游系统集成。

  • 在复杂版式文档中可输出层级化结构信息。


输入与输出规范

支持输入类型

  • 扫描件、照片与截图形式的文档。

  • PDF 文档与多页图像序列。

  • 混排语言、手写体和嵌套表格等复杂布局文档。

输出内容类型

  • 文本识别结果(纯文本)。

  • 复杂表格的 HTML 结构化代码。

  • 结构化字段抽取标准 JSON。

  • 公式、代码片段以及混合版式内容识别结果。


功能模块详解

文本识别

能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。

表格解析

支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析,并生成 HTML 输出。

字段结构化提取

可从身份证、票据、发票等文档中提取关键字段,并输出 JSON。

公式与代码识别

识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。


系统要求与部署

推理引擎兼容性

  • 支持 vLLM、SGLang、Ollama 等主流推理后端。

部署环境

  • 可部署于本地服务器、云端容器与边缘节点。

SDK 与工具链

  • 提供开源 SDK、示例代码与命令行工具,简化模型调用与集成。


应用场景

教育与科研文档处理

识别教材扫描件、学术论文与手写笔记,辅助知识整理与数据结构化存储。

企业办公自动化

自动解析合同、会议纪要、发票与报销单,实现纸质文档数字化与字段提取。

金融与保险数据处理

提取票据、保单、银行卡信息等关键字段,生成结构化数据以对接核心业务系统。

后端大规模文档识别

支持高并发批量文档 OCR 服务,为检索增强生成(RAG)和大数据分析构建优质语义底座。

法务与合规审查

结构化识别合同条款、法律文件层级、印章与签名等内容,提升审查效率。


使用流程

1. 获取模型

从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。

2. 安装依赖

配置 Python 环境及推理后端(如 vLLM);安装 SDK 与依赖库。

3. 文档准备

准备目标文档(扫描件、PDF、图片)并考虑清晰度与布局。

4. 运行推理

使用提供的工具链或 Python API 进行 OCR 推理,生成结构化输出。

5. 结果集成

将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。


性能与评估

基准测试成绩

  • 在 OmniDocBench V1.5 上得分约 94.6,在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。

实际场景稳定性

模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。


用户常见问题(FAQ)

Q1: GLM-OCR 支持哪些文档类型?

A1: 支持照片、扫描件、截图、PDF 及混排内容的文档输入。

Q2: 是否支持结构化输出?

A2: 是,除纯文本外还支持 HTML 表格与标准 JSON 结构输出。

Q3: 模型是否开源?

A3: 是,代码与权重均公开在 GitHub 和 Hugging Face。

Q4: 推理速度如何?

A4: 在测试环境中推理速度可达约 1.86 页/秒(PDF)和 0.67 张/秒(图片)。

Q5: 适合大规模文档处理吗?

A5: 通常认为其高效性和兼容多个推理后端,使其适合大批量处理与高并发 OCR 任务。

Q6: 模型部署难度如何?

A6: 一般认为 GLM-OCR 易于部署,提供 SDK 和工具链简化集成。

数据统计

GLM-OCR访问数据评估

GLM-OCR浏览人数已经达到6,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议以爱站数据为准,更多网站价值评估因素如:GLM-OCR的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找GLM-OCR的站长进行洽谈提供。如该站的IP、PV、UV、跳出率等!

关于GLM-OCR特别声明

本站AI工具导航提供的GLM-OCR页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2026年2月6日 上午9:47收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。

相关AI工具平替

提示词商城

暂无评论

none
暂无评论...