GLM-OCR

21小时前发布 6 00

GLM-OCR 是智谱 AI（Zhipu AI）发布的开源轻量级多模态 OCR 模型，参数约 0.9B，基于 GLM-V 架构及 CogViT 视觉编码器，优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。

站点语言：

收录时间：

2026-02-06

打开网站手机查看

大模型开源工具与社区最近收录AI # OCR 模型 # 多模态 OCR # 结构化输出

GLM-OCR

打开网站

工具名称

GLM-OCR

项目地址

在线入口：https://ocr.z.ai/
代码仓库：https://github.com/zai-org/GLM-OCR
模型托管：https://huggingface.co/zai-org/GLM-OCR

工具类型

开源轻量级多模态光学字符识别模型（OCR）

发布组织

智谱 AI（Zhipu AI）

开源许可

Apache-2.0 开源许可（通常用于开源机器学习模型）

结构化属性表

属性	描述
工具名称	GLM-OCR
类型	多模态 OCR 模型
参数规模	0.9B
基准成绩	OmniDocBench V1.5 ≈ 94.6
输入	文档图片、PDF、扫描件
输出	文本、HTML、JSON
关键技术	CogViT 编码器、MTP 训练
推理引擎	vLLM/SGLang/Ollama
开源协议	Apache-2.0
典型应用	RAG、表格解析、票据识别
部署方式	本地部署 / API 集成

核心技术能力

架构设计

GLM-OCR 继承自 GLM-V 编码–解码架构，结合视觉编码器和语言解码器进行 OCR 任务。
视觉端采用自研 CogViT 编码器预训练视觉特征。
使用轻量跨模态连接层和多 Token 预测损失（MTP）提高训练效率与泛化能力。

参数规模与性能指标

参数规模约 0.9B，属于轻量级 OCR 模型设计。
在 OmniDocBench V1.5 基准测试中获得约 94.6 分，综合识别表现领先多数同类模型。

推理效率

支持主流推理引擎部署，例如 vLLM、SGLang 和 Ollama，降低延迟与算力要求。
在实验环境中推理速度可达约 1.86 页/秒（PDF） 和 0.67 张/秒（图片）。

结构化输出

支持将表格转换为 HTML 结构、生成标准 JSON 输出格式，便于下游系统集成。
在复杂版式文档中可输出层级化结构信息。

输入与输出规范

支持输入类型

扫描件、照片与截图形式的文档。
PDF 文档与多页图像序列。
混排语言、手写体和嵌套表格等复杂布局文档。

输出内容类型

文本识别结果（纯文本）。
复杂表格的 HTML 结构化代码。
结构化字段抽取标准 JSON。
公式、代码片段以及混合版式内容识别结果。

功能模块详解

文本识别

能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。

表格解析

支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析，并生成 HTML 输出。

字段结构化提取

可从身份证、票据、发票等文档中提取关键字段，并输出 JSON。

公式与代码识别

识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。

系统要求与部署

推理引擎兼容性

支持 vLLM、SGLang、Ollama 等主流推理后端。

部署环境

可部署于本地服务器、云端容器与边缘节点。

SDK 与工具链

提供开源 SDK、示例代码与命令行工具，简化模型调用与集成。

应用场景

教育与科研文档处理

识别教材扫描件、学术论文与手写笔记，辅助知识整理与数据结构化存储。

企业办公自动化

自动解析合同、会议纪要、发票与报销单，实现纸质文档数字化与字段提取。

金融与保险数据处理

提取票据、保单、银行卡信息等关键字段，生成结构化数据以对接核心业务系统。

后端大规模文档识别

支持高并发批量文档 OCR 服务，为检索增强生成（RAG）和大数据分析构建优质语义底座。

法务与合规审查

结构化识别合同条款、法律文件层级、印章与签名等内容，提升审查效率。

使用流程

1. 获取模型

从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。

2. 安装依赖

配置 Python 环境及推理后端（如 vLLM）；安装 SDK 与依赖库。

3. 文档准备

准备目标文档（扫描件、PDF、图片）并考虑清晰度与布局。

4. 运行推理

使用提供的工具链或 Python API 进行 OCR 推理，生成结构化输出。

5. 结果集成

将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。

性能与评估

基准测试成绩

在 OmniDocBench V1.5 上得分约 94.6，在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。

实际场景稳定性

模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。

用户常见问题（FAQ）

Q1: GLM-OCR 支持哪些文档类型？

A1: 支持照片、扫描件、截图、PDF 及混排内容的文档输入。

Q2: 是否支持结构化输出？

A2: 是，除纯文本外还支持 HTML 表格与标准 JSON 结构输出。

Q3: 模型是否开源？

A3: 是，代码与权重均公开在 GitHub 和 Hugging Face。

Q4: 推理速度如何？

A4: 在测试环境中推理速度可达约 1.86 页/秒（PDF）和 0.67 张/秒（图片）。

Q5: 适合大规模文档处理吗？

A5: 通常认为其高效性和兼容多个推理后端，使其适合大批量处理与高并发 OCR 任务。

Q6: 模型部署难度如何？

A6: 一般认为 GLM-OCR 易于部署，提供 SDK 和工具链简化集成。

数据统计

GLM-OCR访问数据评估

GLM-OCR浏览人数已经达到6，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议以爱站数据为准，更多网站价值评估因素如：GLM-OCR的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找GLM-OCR的站长进行洽谈提供。如该站的IP、PV、UV、跳出率等！

特别声明

本站AI工具导航提供的GLM-OCR页面内容基于公开资料、第三方工具目录与用户可访问信息整理，不代表官方立场，也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时，对于该外部链接的指向，不由AI工具导航实际控制，在2026年2月6日上午9:47收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，AI工具导航不承担任何责任。

AI工具导航致力于优质、实用的AI工具收集与分享！该AI工具地址https://navxd.com/sites/6452.html转载请注明

OneRec

暂无评论

暂无评论...

GLM-OCR

工具名称

项目地址

工具类型

发布组织

开源许可

结构化属性表

核心技术能力

架构设计

参数规模与性能指标

推理效率

结构化输出

输入与输出规范

支持输入类型

输出内容类型

功能模块详解

文本识别

表格解析

字段结构化提取

公式与代码识别

系统要求与部署

推理引擎兼容性

部署环境

SDK 与工具链

应用场景

教育与科研文档处理

企业办公自动化

金融与保险数据处理

后端大规模文档识别

法务与合规审查

使用流程

1. 获取模型

2. 安装依赖

3. 文档准备

4. 运行推理

5. 结果集成

性能与评估

基准测试成绩

实际场景稳定性

用户常见问题（FAQ）

Q1: GLM-OCR 支持哪些文档类型？

Q2: 是否支持结构化输出？

Q3: 模型是否开源？

Q4: 推理速度如何？

Q5: 适合大规模文档处理吗？

Q6: 模型部署难度如何？

数据统计

GLM-OCR访问数据评估

相关AI工具平替

灵语文档

Claude 4

Step-DeepResearch

DeepPiano

Lami AI Music Generator

Playwright MCP

Twocast

OneRec

暂无评论

站内搜索

标签云