CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS486
▸ AI 大模型 / 对话 · SITES

Dolphin SITES

ByteDance开发的多模态文档图像解析模型,处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年5月24日更新 2025年5月24日浏览 486

// 01 Dolphin 是什么

Dolphin是一款由ByteDance开发的多模态文档图像解析模型,于2025年5月19日发布,专为处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。该模型采用创新的分析-解析(analyze-then-parse)范式,通过两阶段方法实现高效解析:第一阶段进行页面级布局分析,生成自然阅读顺序的元素序列;第二阶段利用异构锚点和任务特定提示并行解析不同元素。Dolphin基于视觉编码器-解码器架构,使用Swin Transformer提取视觉特征,MBart解码文本,参数量为398M,支持I64和FP16张量类型。作为一款开源模型,Dolphin以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供详细代码和使用说明,吸引了全球AI社区的广泛关注。

核心功能

Dolphin 提供以下关键功能,满足文档图像解析的多样化需求:

功能

详情

两阶段解析方法

第一阶段:页面级布局分析,生成自然阅读顺序的元素序列;第二阶段:并行解析文本、表格、图形和公式,使用异构锚点和任务特定提示。

多模态处理能力

能够处理文档图像中的文本、表格、图形和公式等多种元素,确保全面解析。

结构化输出

将文档图像转换为结构化的JSON和Markdown格式,方便后续处理和集成。

开源与易用性

以MIT许可证开源,作为Hugging Face的VisionEncoderDecoderModel实现,与Transformers库无缝集成。

高效部署

参数量为398M,支持I64和FP16张量类型,适合多种硬件环境。

什么是Dolphin?

Dolphin(文档图像解析通过异构锚点提示,Document Image Parsing via Heterogeneous Anchor Prompting)是一款由ByteDance开发的开源多模态AI模型,专注于解析复杂文档图像。它通过两阶段方法处理包含文本、表格、图形和公式等交织元素的文档图像。第一阶段通过页面级布局分析生成自然阅读顺序的元素序列,第二阶段利用异构锚点和任务特定提示并行解析不同元素,生成结构化的JSON和Markdown输出。Dolphin基于视觉编码器-解码器架构,视觉编码器采用Swin Transformer提取视觉特征,文本解码器使用MBart生成文本输出。该模型以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供代码和文档,支持开发者快速集成到项目中。

主要功能

  • 两阶段解析方法:Dolphin采用创新的分析-解析范式。第一阶段通过页面级布局分析,生成自然阅读顺序的元素序列,确保准确理解文档结构。第二阶段利用异构锚点和任务特定提示并行解析文本、表格、图形和公式,提升处理效率。

  • 多模态处理能力:Dolphin能够处理文档图像中的多种元素,包括文本段落、表格、图形和公式,确保全面解析复杂文档内容。

  • 结构化输出:将文档图像转换为结构化的JSON和Markdown格式,方便开发者进行数据分析、数据库录入或进一步处理。

  • 开源与易用性:Dolphin以MIT许可证开源,作为Hugging Face的VisionEncoderDecoderModel实现,与Transformers库无缝集成,开发者可通过简单的API调用快速部署。

  • 高效部署:模型参数量为398M,支持I64和FP16张量类型,适合在多种硬件环境中运行,降低部署门槛。

适用场景

Dolphin的多功能性使其适用于多种场景:

  • 文档数字化:将扫描文档、数字PDF或其他图像格式的文档转换为可搜索的数字格式,适用于档案管理或电子化流程。

  • 数据提取:从复杂文档中提取特定数据点,如表格中的数值或公式中的变量,适合数据分析或数据库录入。

  • 内容理解:通过解析文档布局和内容关系,提供深入的文档洞察,适用于学术研究或商业智能。

  • 企业应用:为企业提供高效的文档处理解决方案,优化工作流程,如合同分析或财务报表处理。

为什么选择Dolphin?

Dolphin通过结合计算机视觉和自然语言处理技术,为复杂文档图像解析提供了强大的解决方案。其创新的两阶段解析方法(布局分析+并行解析)显著提升了处理效率和准确性,特别适合处理包含交织元素的文档。相比传统文档解析工具,Dolphin能够自动适应复杂布局,减少手动干预。作为一款开源模型,Dolphin以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供详细代码和文档,降低了使用门槛。用户反馈显示,Dolphin在处理多模态文档时表现出色,尤其在数据提取和内容理解任务中受到广泛好评。社区认为,Dolphin是“文档解析领域的突破性工具”,推动了AI在文档处理中的应用。

用户反馈

Dolphin自2025年5月19日发布以来,受到AI社区的广泛关注。据 Hugging Face 数据,模型在发布后一个月内下载量达516次,显示出开发者对其的浓厚兴趣。X用户@AdinaY在 Hugging Face帖子 中称赞Dolphin为“多模态文档解析的突破”,指出其分析-解析范式和智能提示功能显著提升了处理效率。社区期待Dolphin未来推出更多优化版本和演示工具,进一步扩展其应用场景。

立即体验

Dolphin现已通过 Hugging Face 提供免费访问,开发者可下载模型并通过Transformers库集成到项目中。详细使用说明和代码可在 GitHub 找到。ByteDance计划发布Dolphin的在线演示,建议关注官方更新以获取最新动态。立即探索Dolphin,体验AI驱动的文档解析新方式!

// 04 常见 问题

Dolphin 是什么?
ByteDance开发的多模态文档图像解析模型,处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。
Dolphin 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、price-open-source、tech-speech、数据提取 等标签。
Dolphin 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Dolphin 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部