当前浏览中
频道AI 大模型
浏览量199
▸ AI 大模型 · 大模型

GLM-OCR 大模型

GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · zh
收录 2026年2月6日更新 2026年2月6日浏览 199

// 01 GLM-OCR 是什么

GLM-OCR 界面截图
GLM-OCR · 界面预览

工具名称

GLM-OCR

项目地址

工具类型

开源轻量级多模态光学字符识别模型(OCR)

发布组织

智谱 AI(Zhipu AI)

开源许可

Apache-2.0 开源许可(通常用于开源机器学习模型)

结构化属性表

属性描述
工具名称GLM-OCR
类型多模态 OCR 模型
参数规模0.9B
基准成绩OmniDocBench V1.5 ≈ 94.6
输入文档图片、PDF、扫描件
输出文本、HTML、JSON
关键技术CogViT 编码器、MTP 训练
推理引擎vLLM/SGLang/Ollama
开源协议Apache-2.0
典型应用RAG、表格解析、票据识别
部署方式本地部署 / API 集成

核心技术能力

架构设计

  • GLM-OCR 继承自 GLM-V 编码–解码架构,结合视觉编码器和语言解码器进行 OCR 任务。

  • 视觉端采用自研 CogViT 编码器预训练视觉特征。

  • 使用轻量跨模态连接层和多 Token 预测损失(MTP)提高训练效率与泛化能力。

参数规模与性能指标

  • 参数规模约 0.9B,属于轻量级 OCR 模型设计。

  • 在 OmniDocBench V1.5 基准测试中获得约 94.6 分,综合识别表现领先多数同类模型。

推理效率

  • 支持主流推理引擎部署,例如 vLLM、SGLang 和 Ollama,降低延迟与算力要求。

  • 在实验环境中推理速度可达约 1.86 页/秒(PDF)0.67 张/秒(图片)

结构化输出

  • 支持将表格转换为 HTML 结构、生成标准 JSON 输出格式,便于下游系统集成。

  • 在复杂版式文档中可输出层级化结构信息。


输入与输出规范

支持输入类型

  • 扫描件、照片与截图形式的文档。

  • PDF 文档与多页图像序列。

  • 混排语言、手写体和嵌套表格等复杂布局文档。

输出内容类型

  • 文本识别结果(纯文本)。

  • 复杂表格的 HTML 结构化代码。

  • 结构化字段抽取标准 JSON。

  • 公式、代码片段以及混合版式内容识别结果。


功能模块详解

文本识别

能识别印刷体、手写体、印章文字、程序代码及多语言混排文本。

表格解析

支持合并单元格、多层表头、嵌套表结构等复杂表格内容的完整解析,并生成 HTML 输出。

字段结构化提取

可从身份证、票据、发票等文档中提取关键字段,并输出 JSON。

公式与代码识别

识别数学公式、编程语言代码片段、符号结构复杂的科学文档内容。


系统要求与部署

推理引擎兼容性

  • 支持 vLLM、SGLang、Ollama 等主流推理后端。

部署环境

  • 可部署于本地服务器、云端容器与边缘节点。

SDK 与工具链

  • 提供开源 SDK、示例代码与命令行工具,简化模型调用与集成。


应用场景

教育与科研文档处理

识别教材扫描件、学术论文与手写笔记,辅助知识整理与数据结构化存储。

企业办公自动化

自动解析合同、会议纪要、发票与报销单,实现纸质文档数字化与字段提取。

金融与保险数据处理

提取票据、保单、银行卡信息等关键字段,生成结构化数据以对接核心业务系统。

后端大规模文档识别

支持高并发批量文档 OCR 服务,为检索增强生成(RAG)和大数据分析构建优质语义底座。

法务与合规审查

结构化识别合同条款、法律文件层级、印章与签名等内容,提升审查效率。


使用流程

1. 获取模型

从 GitHub 下载 GLM-OCR 源代码或在 Hugging Face 拉取模型权重。

2. 安装依赖

配置 Python 环境及推理后端(如 vLLM);安装 SDK 与依赖库。

3. 文档准备

准备目标文档(扫描件、PDF、图片)并考虑清晰度与布局。

4. 运行推理

使用提供的工具链或 Python API 进行 OCR 推理,生成结构化输出。

5. 结果集成

将生成的 HTML 或 JSON 输出集成至业务系统或分析管线。


性能与评估

基准测试成绩

  • 在 OmniDocBench V1.5 上得分约 94.6,在文本、表格、公式与信息抽取任务中表现领先同类开源 OCR 模型。

实际场景稳定性

模型在手写、多语种混合、复杂表格与印章等真实文档场景下稳定输出高质量识别结果。


// 02 核心 功能

  • 核心定位GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。
  • 分类索引当前归档在 AI 大模型 / 对话,方便和同频工具横向比较。
  • 能力标签关联标签包括 price-open-source、OCR 模型。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI 大模型 / 对话 定位和 price-open-source、OCR 模型 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

GLM-OCR 是什么?
GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。
GLM-OCR 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 price-open-source、OCR 模型 等标签。
GLM-OCR 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
GLM-OCR 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI 大模型 全部