当前浏览中

频道AI 办公

浏览量7

▸ AI 办公 · 协议 / 标准

Unlimited-OCR 协议 / 标准

Unlimited-OCR 是百度开源的多模态文档解析大模型，主打单次长文档（长视野）OCR 解析，支持 PDF 多页与图像识别，MIT 协议免费自部署，国内可经 ModelScope 直连。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

GitHub收藏 0

收录 2026年6月24日更新 2026年6月24日浏览 7

// 01 Unlimited-OCR 是什么

Unlimited-OCR 界面截图 — Unlimited-OCR · 界面预览

快速结论

Unlimited-OCR（Unlimited OCR Works · 百度）是百度开源的多模态文档解析大模型，主打"单次长视野解析"（One-shot Long-horizon Parsing），能一次性处理超长文档而非逐块切分。截至 2026-06，模型已上线 Hugging Face 与 ModelScope，采用 MIT 协议可免费商用自部署；对应论文 arXiv 2606.23050 于 2026-06-23 发布。国内开发者可经 ModelScope 直连下载，无需梯子。

适合谁优先使用

需要批量解析 PDF、扫描件、长报告的 RAG / 知识库工程师
想自建私有化 OCR 服务、不愿把文档传第三方云的企业团队
对比 DeepSeek-OCR、PaddleOCR 后想要更长上下文方案的开发者
研究文档智能 / 多模态大模型的算法人员（开源可改）

核心能力拆解

长视野单次解析

不同于传统 OCR 把页面切成小块再拼接，它一次性解析整篇长文档，上下文长度达 32768 tokens，减少跨块信息丢失。

多模式推理

单图像提供 gundam（640 分辨率，裁剪）和 base（1024 分辨率）两档；多页 / PDF 走 base 模式（先把页面转图像再多页解析）。

PDF 多页处理

内置 PDF→图像→多页解析流程，适合整本文档而非单张截图。

SGLang 服务化部署

通过 infer.py 启动 SGLang 服务器，提供 OpenAI 兼容 API，方便接入现有应用；批量推理也走这条路径。

开源可改

基于 PyTorch（torch 2.10.0 / transformers 4.57.1，支持 bfloat16），MIT 协议，致谢并改进自 DeepSeek-OCR、PaddleOCR 等项目。

和同类工具怎么选

需求	优先考虑	判断标准
整本长文档 / 长报告一次解析	Unlimited-OCR	32768 长上下文，单次长视野
成熟稳定、中文场景文档识别	PaddleOCR	百度多年迭代、生态完整
纯端侧轻量识别	PaddleOCR / 传统 OCR	无需大模型显存
已在用 DeepSeek-OCR 想换长上下文方案	Unlimited-OCR	同源思路、更长视野

国内平替：PaddleOCR 同为百度开源、中文文档生态最成熟，轻量场景可优先。

限制与避坑

项目极新（2026-06 发布、提交数很少），生态与踩坑文档尚不丰富。
是大模型方案，本地部署需 GPU 显存，远重于传统 OCR 引擎。
批量推理必须经 infer.py 启动 SGLang 服务器，不是开箱单文件调用。
具体参数量、OmniDocBench 等基准分数 README 暂未公布（待核实，可查 arXiv 2606.23050）。
GitHub 国内访问不稳，建议走 ModelScope 下载权重。

NavXD 使用建议

当你要把成批 PDF / 扫描长文档喂进 RAG 或知识库、又希望私有化部署不外传数据时，Unlimited-OCR 的长视野单次解析最能体现价值；若只是零散截图取字或追求轻量稳定，PaddleOCR 等传统方案更省心。

常见问题

Unlimited-OCR 收费吗？

免费。MIT 开源协议，可自由商用和二次开发，成本主要是自部署的算力。

国内能用吗？

能。模型同步上线 ModelScope（国内直连下载），无需梯子；GitHub 代码库访问不稳时从 ModelScope 取权重即可。

和 DeepSeek-OCR 哪个好？

同源思路，Unlimited-OCR 主打更长上下文（32768）的单次长文档解析；DeepSeek-OCR 更早、社区资料更多。长文档选前者，求稳可先看后者。

// 02 核心功能

核心定位Unlimited-OCR 是百度开源的多模态文档解析大模型，主打单次长文档（长视野）OCR 解析，支持 PDF 多页与图像识别，MIT 协议免费自部署，国内可经 ModelScope 直连。
分类索引当前归档在 AI 办公，方便和同频工具横向比较。
能力标签关联标签包括开源、多模态、百度、OCR、OCR 模型、文档解析。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 办公定位和开源、多模态、百度标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

Unlimited-OCR 是什么？

Unlimited-OCR 适合哪些场景？

可优先参考它所属的 AI 办公分类，以及开源、多模态、百度、OCR、OCR 模型等标签。

Unlimited-OCR 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Unlimited-OCR 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6955.html 官网或下载入口https://github.com/baidu/Unlimited-OCR 分类与标签体系AI 办公、开源、多模态、百度、OCR

SCAIL-2

快速结论 SCAIL-2 是清华大学与 Z.ai（智谱）推出的开源端到端角色动画框架，主打通过视觉条件直接传递 […]

AI 视频AI 工具

cmux

快速结论 cmux 是 Manaflow 团队推出的开源 macOS 原生终端应用，主打为「多任务 + 多 A […]

AI 编程AI 工具

WBench

快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准，主打对「交互式视频世界模 […]