GLM-OCR 如何收费？

GLM-OCR 的定价模式为：unknown。

当前浏览中

频道AI 大模型

浏览量199

▸ AI 大模型 · 大模型

GLM-OCR 大模型

GLM-OCR 是智谱 AI（Zhipu AI）发布的开源轻量级多模态 OCR 模型，参数约 0.9B，基于 GLM-V 架构及 CogViT 视觉编码器，优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · zh

访问官网 GitHub收藏 0

收录 2026年2月6日更新 2026年2月6日浏览 199

// 01 GLM-OCR 是什么

工具名称

GLM-OCR

项目地址

在线入口：https://ocr.z.ai/
代码仓库：https://github.com/zai-org/GLM-OCR
模型托管：https://huggingface.co/zai-org/GLM-OCR

工具类型

开源轻量级多模态光学字符识别模型（OCR）

发布组织

智谱 AI（Zhipu AI）

开源许可

Apache-2.0 开源许可（通常用于开源机器学习模型）

结构化属性表

属性	描述
工具名称	GLM-OCR
类型	多模态 OCR 模型
参数规模	0.9B
基准成绩	OmniDocBench V1.5 ≈ 94.6
输入	文档图片、PDF、扫描件
输出	文本、HTML、JSON
关键技术	CogViT 编码器、MTP 训练
推理引擎	vLLM/SGLang/Ollama
开源协议	Apache-2.0
典型应用	RAG、表格解析、票据识别
部署方式	本地部署 / API 集成

核心技术能力

架构设计

GLM-OCR 继承自 GLM-V 编码–解码架构，结合视觉编码器和语言解码器进行 OCR 任务。
视觉端采用自研 CogViT 编码器预训练视觉特征。
使用轻量跨模态连接层和多 Token 预测损失（MTP）提高训练效率与泛化能力。

参数规模与性能指标

参数规模约 0.9B，属于轻量级 OCR 模型设计。
在 OmniDocBench V1.5 基准测试中获得约 94.6 分，综合识别表现领先多数同类模型。

推理效率

支持主流推理引擎部署，例如 vLLM、SGLang 和 Ollama，降低延迟与算力要求。
在实验环境中推理速度可达约 1.86 页/秒（PDF） 和 0.67 张/秒（图片）。

结构化输出

支持将表格转换为 HTML 结构、生成标准 JSON 输出格式，便于下游系统集成。
在复杂版式文档中可输出层级化结构信息。

输入与输出规范

支持输入类型

扫描件、照片与截图形式的文档。
PDF 文档与多页图像序列。
混排语言、手写体和嵌套表格等复杂布局文档。

输出内容类型

文本识别结果（纯文本）。
复杂表格的 HTML 结构化代码。
结构化字段抽取标准 JSON。
公式、代码片段以及混合版式内容识别结果。

功能模块详解

文本识别

能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。

表格解析

支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析，并生成 HTML 输出。

字段结构化提取

可从身份证、票据、发票等文档中提取关键字段，并输出 JSON。

公式与代码识别

识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。

系统要求与部署

推理引擎兼容性

支持 vLLM、SGLang、Ollama 等主流推理后端。

部署环境

可部署于本地服务器、云端容器与边缘节点。

SDK 与工具链

提供开源 SDK、示例代码与命令行工具，简化模型调用与集成。

应用场景

教育与科研文档处理

识别教材扫描件、学术论文与手写笔记，辅助知识整理与数据结构化存储。

企业办公自动化

自动解析合同、会议纪要、发票与报销单，实现纸质文档数字化与字段提取。

金融与保险数据处理

提取票据、保单、银行卡信息等关键字段，生成结构化数据以对接核心业务系统。

后端大规模文档识别

支持高并发批量文档 OCR 服务，为检索增强生成（RAG）和大数据分析构建优质语义底座。

法务与合规审查

结构化识别合同条款、法律文件层级、印章与签名等内容，提升审查效率。

使用流程

1. 获取模型

从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。

2. 安装依赖

配置 Python 环境及推理后端（如 vLLM）；安装 SDK 与依赖库。

3. 文档准备

准备目标文档（扫描件、PDF、图片）并考虑清晰度与布局。

4. 运行推理

使用提供的工具链或 Python API 进行 OCR 推理，生成结构化输出。

5. 结果集成

将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。

性能与评估

基准测试成绩

在 OmniDocBench V1.5 上得分约 94.6，在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。

实际场景稳定性

模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。

// 02 核心功能

核心定位GLM-OCR 是智谱 AI（Zhipu AI）发布的开源轻量级多模态 OCR 模型，参数约 0.9B，基于 GLM-V 架构及 CogViT 视觉编码器，优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 price-open-source、OCR 模型。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 大模型 / 对话定位和 price-open-source、OCR 模型标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

GLM-OCR 是什么？

GLM-OCR 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 price-open-source、OCR 模型等标签。

GLM-OCR 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

GLM-OCR 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6452.html 官网或下载入口https://ocr.z.ai/分类与标签体系AI 大模型 / 对话、price-open-source、OCR 模型

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与...

AI 大模型 / 对话AI 工具

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe...

AI 大模型 / 对话AI 工具

Intern-S1-Pro

Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型，具备混合专家（MoE）架构与通专融合架构（SAGE），在 AI4Science 科学推理...

AI 大模型 / 对话AI 工具

GLM-OCR 大模型

// 01 GLM-OCR 是什么

工具名称

项目地址

工具类型

发布组织

开源许可

结构化属性表

核心技术能力

架构设计

参数规模与性能指标

推理效率

结构化输出

输入与输出规范

支持输入类型

输出内容类型

功能模块详解

文本识别

表格解析

字段结构化提取

公式与代码识别

系统要求与部署

推理引擎兼容性

部署环境

SDK 与工具链

应用场景

教育与科研文档处理

企业办公自动化

金融与保险数据处理

后端大规模文档识别

法务与合规审查

使用流程

1. 获取模型

2. 安装依赖

3. 文档准备

4. 运行推理

5. 结果集成

性能与评估

基准测试成绩

实际场景稳定性

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源