Dolphin 如何收费？

Dolphin 的定价模式为：unknown。

Dolphin 是一款收录于 AI工具导航的 AI 大模型 / 对话，适合关注 price-open-source、tech-cv、tech-speech、数据提取的用户了解和使用。ByteDance开发的多模态文档图像解析模型，处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。你可以通过本页查看官网入口、所属分类、相关标签和同类工具，快速判断它是否适合自己的工作流。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Dolphin SITES

ByteDance开发的多模态文档图像解析模型，处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年5月24日更新 2025年5月24日浏览 486

// 01 Dolphin 是什么

Dolphin是一款由ByteDance开发的多模态文档图像解析模型，于2025年5月19日发布，专为处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。该模型采用创新的分析-解析（analyze-then-parse）范式，通过两阶段方法实现高效解析：第一阶段进行页面级布局分析，生成自然阅读顺序的元素序列；第二阶段利用异构锚点和任务特定提示并行解析不同元素。Dolphin基于视觉编码器-解码器架构，使用Swin Transformer提取视觉特征，MBart解码文本，参数量为398M，支持I64和FP16张量类型。作为一款开源模型，Dolphin以MIT许可证发布，托管在 Hugging Face，并通过 GitHub 提供详细代码和使用说明，吸引了全球AI社区的广泛关注。

核心功能

Dolphin 提供以下关键功能，满足文档图像解析的多样化需求：

功能	详情
两阶段解析方法	第一阶段：页面级布局分析，生成自然阅读顺序的元素序列；第二阶段：并行解析文本、表格、图形和公式，使用异构锚点和任务特定提示。
多模态处理能力	能够处理文档图像中的文本、表格、图形和公式等多种元素，确保全面解析。
结构化输出	将文档图像转换为结构化的JSON和Markdown格式，方便后续处理和集成。
开源与易用性	以MIT许可证开源，作为Hugging Face的VisionEncoderDecoderModel实现，与Transformers库无缝集成。
高效部署	参数量为398M，支持I64和FP16张量类型，适合多种硬件环境。

什么是Dolphin？

Dolphin（文档图像解析通过异构锚点提示，Document Image Parsing via Heterogeneous Anchor Prompting）是一款由ByteDance开发的开源多模态AI模型，专注于解析复杂文档图像。它通过两阶段方法处理包含文本、表格、图形和公式等交织元素的文档图像。第一阶段通过页面级布局分析生成自然阅读顺序的元素序列，第二阶段利用异构锚点和任务特定提示并行解析不同元素，生成结构化的JSON和Markdown输出。Dolphin基于视觉编码器-解码器架构，视觉编码器采用Swin Transformer提取视觉特征，文本解码器使用MBart生成文本输出。该模型以MIT许可证发布，托管在 Hugging Face，并通过 GitHub 提供代码和文档，支持开发者快速集成到项目中。

主要功能

两阶段解析方法：Dolphin采用创新的分析-解析范式。第一阶段通过页面级布局分析，生成自然阅读顺序的元素序列，确保准确理解文档结构。第二阶段利用异构锚点和任务特定提示并行解析文本、表格、图形和公式，提升处理效率。
多模态处理能力：Dolphin能够处理文档图像中的多种元素，包括文本段落、表格、图形和公式，确保全面解析复杂文档内容。
结构化输出：将文档图像转换为结构化的JSON和Markdown格式，方便开发者进行数据分析、数据库录入或进一步处理。
开源与易用性：Dolphin以MIT许可证开源，作为Hugging Face的VisionEncoderDecoderModel实现，与Transformers库无缝集成，开发者可通过简单的API调用快速部署。
高效部署：模型参数量为398M，支持I64和FP16张量类型，适合在多种硬件环境中运行，降低部署门槛。

适用场景

Dolphin的多功能性使其适用于多种场景：

文档数字化：将扫描文档、数字PDF或其他图像格式的文档转换为可搜索的数字格式，适用于档案管理或电子化流程。
数据提取：从复杂文档中提取特定数据点，如表格中的数值或公式中的变量，适合数据分析或数据库录入。
内容理解：通过解析文档布局和内容关系，提供深入的文档洞察，适用于学术研究或商业智能。
企业应用：为企业提供高效的文档处理解决方案，优化工作流程，如合同分析或财务报表处理。

为什么选择Dolphin？

Dolphin通过结合计算机视觉和自然语言处理技术，为复杂文档图像解析提供了强大的解决方案。其创新的两阶段解析方法（布局分析+并行解析）显著提升了处理效率和准确性，特别适合处理包含交织元素的文档。相比传统文档解析工具，Dolphin能够自动适应复杂布局，减少手动干预。作为一款开源模型，Dolphin以MIT许可证发布，托管在 Hugging Face，并通过 GitHub 提供详细代码和文档，降低了使用门槛。用户反馈显示，Dolphin在处理多模态文档时表现出色，尤其在数据提取和内容理解任务中受到广泛好评。社区认为，Dolphin是“文档解析领域的突破性工具”，推动了AI在文档处理中的应用。

用户反馈

Dolphin自2025年5月19日发布以来，受到AI社区的广泛关注。据 Hugging Face 数据，模型在发布后一个月内下载量达516次，显示出开发者对其的浓厚兴趣。X用户@AdinaY在 Hugging Face帖子中称赞Dolphin为“多模态文档解析的突破”，指出其分析-解析范式和智能提示功能显著提升了处理效率。社区期待Dolphin未来推出更多优化版本和演示工具，进一步扩展其应用场景。

立即体验

Dolphin现已通过 Hugging Face 提供免费访问，开发者可下载模型并通过Transformers库集成到项目中。详细使用说明和代码可在 GitHub 找到。ByteDance计划发布Dolphin的在线演示，建议关注官方更新以获取最新动态。立即探索Dolphin，体验AI驱动的文档解析新方式！

// 04 常见问题

Dolphin 是什么？

ByteDance开发的多模态文档图像解析模型，处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。

Dolphin 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 tech-cv、price-open-source、tech-speech、数据提取等标签。

Dolphin 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Dolphin 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5226.html 官网或下载入口https://huggingface.co/ByteDance/Dolphin 分类与标签体系AI 大模型 / 对话、tech-cv、price-open-source、tech-speech、数据提取

◇ ◇ ◇

"关系待挖掘"
暂无搭档工具数据

▸ 我来推荐

Dolphin 工具资料卡

NavXD2025年5月24日

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与...

AI 大模型 / 对话AI 工具

Dolphin SITES

// 01 Dolphin 是什么

核心功能

什么是Dolphin？

主要功能

适用场景

为什么选择Dolphin？

用户反馈

立即体验

// 04 常见 问题

// 05 资料 来源

// 04 常见问题

// 05 资料来源