当前浏览中
频道AI 办公
浏览量7
▸ AI 办公 · 协议 / 标准

Unlimited-OCR 协议 / 标准

Unlimited-OCR 是百度开源的多模态文档解析大模型,主打单次长文档(长视野)OCR 解析,支持 PDF 多页与图像识别,MIT 协议免费自部署,国内可经 ModelScope 直连。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
GitHub收藏 0
收录 2026年6月24日更新 2026年6月24日浏览 7

// 01 Unlimited-OCR 是什么

Unlimited-OCR 界面截图
Unlimited-OCR · 界面预览

快速结论

Unlimited-OCR(Unlimited OCR Works · 百度)是百度开源的多模态文档解析大模型,主打"单次长视野解析"(One-shot Long-horizon Parsing),能一次性处理超长文档而非逐块切分。截至 2026-06,模型已上线 Hugging Face 与 ModelScope,采用 MIT 协议可免费商用自部署;对应论文 arXiv 2606.23050 于 2026-06-23 发布。国内开发者可经 ModelScope 直连下载,无需梯子。

适合谁优先使用

  • 需要批量解析 PDF、扫描件、长报告的 RAG / 知识库工程师
  • 想自建私有化 OCR 服务、不愿把文档传第三方云的企业团队
  • 对比 DeepSeek-OCR、PaddleOCR 后想要更长上下文方案的开发者
  • 研究文档智能 / 多模态大模型的算法人员(开源可改)

核心能力拆解

长视野单次解析

不同于传统 OCR 把页面切成小块再拼接,它一次性解析整篇长文档,上下文长度达 32768 tokens,减少跨块信息丢失。

多模式推理

单图像提供 gundam(640 分辨率,裁剪)和 base(1024 分辨率)两档;多页 / PDF 走 base 模式(先把页面转图像再多页解析)。

PDF 多页处理

内置 PDF→图像→多页解析流程,适合整本文档而非单张截图。

SGLang 服务化部署

通过 infer.py 启动 SGLang 服务器,提供 OpenAI 兼容 API,方便接入现有应用;批量推理也走这条路径。

开源可改

基于 PyTorch(torch 2.10.0 / transformers 4.57.1,支持 bfloat16),MIT 协议,致谢并改进自 DeepSeek-OCR、PaddleOCR 等项目。

和同类工具怎么选

需求优先考虑判断标准
整本长文档 / 长报告一次解析Unlimited-OCR32768 长上下文,单次长视野
成熟稳定、中文场景文档识别PaddleOCR百度多年迭代、生态完整
纯端侧轻量识别PaddleOCR / 传统 OCR无需大模型显存
已在用 DeepSeek-OCR 想换长上下文方案Unlimited-OCR同源思路、更长视野

国内平替:PaddleOCR 同为百度开源、中文文档生态最成熟,轻量场景可优先。

限制与避坑

  • 项目极新(2026-06 发布、提交数很少),生态与踩坑文档尚不丰富。
  • 是大模型方案,本地部署需 GPU 显存,远重于传统 OCR 引擎。
  • 批量推理必须经 infer.py 启动 SGLang 服务器,不是开箱单文件调用。
  • 具体参数量、OmniDocBench 等基准分数 README 暂未公布(待核实,可查 arXiv 2606.23050)。
  • GitHub 国内访问不稳,建议走 ModelScope 下载权重。

NavXD 使用建议

当你要把成批 PDF / 扫描长文档喂进 RAG 或知识库、又希望私有化部署不外传数据时,Unlimited-OCR 的长视野单次解析最能体现价值;若只是零散截图取字或追求轻量稳定,PaddleOCR 等传统方案更省心。

常见问题

Unlimited-OCR 收费吗?

免费。MIT 开源协议,可自由商用和二次开发,成本主要是自部署的算力。

国内能用吗?

能。模型同步上线 ModelScope(国内直连下载),无需梯子;GitHub 代码库访问不稳时从 ModelScope 取权重即可。

和 DeepSeek-OCR 哪个好?

同源思路,Unlimited-OCR 主打更长上下文(32768)的单次长文档解析;DeepSeek-OCR 更早、社区资料更多。长文档选前者,求稳可先看后者。

// 02 核心 功能

  • 核心定位Unlimited-OCR 是百度开源的多模态文档解析大模型,主打单次长文档(长视野)OCR 解析,支持 PDF 多页与图像识别,MIT 协议免费自部署,国内可经 ModelScope 直连。
  • 分类索引当前归档在 AI 办公,方便和同频工具横向比较。
  • 能力标签关联标签包括 开源、多模态、百度、OCR、OCR 模型、文档解析。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI 办公 定位和 开源、多模态、百度 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

Unlimited-OCR 是什么?
Unlimited-OCR 是百度开源的多模态文档解析大模型,主打单次长文档(长视野)OCR 解析,支持 PDF 多页与图像识别,MIT 协议免费自部署,国内可经 ModelScope 直连。
Unlimited-OCR 适合哪些场景?
可优先参考它所属的 AI 办公 分类,以及 开源、多模态、百度、OCR、OCR 模型 等标签。
Unlimited-OCR 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Unlimited-OCR 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI 办公 全部