Dolphin是一款由ByteDance开发的多模态文档图像解析模型,于2025年5月19日发布,专为处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。该模型采用创新的分析-解析(analyze-then-parse)范式,通过两阶段方法实现高效解析:第一阶段进行页面级布局分析,生成自然阅读顺序的元素序列;第二阶段利用异构锚点和任务特定提示并行解析不同元素。Dolphin基于视觉编码器-解码器架构,使用Swin Transformer提取视觉特征,MBart解码文本,参数量为398M,支持I64和FP16张量类型。作为一款开源模型,Dolphin以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供详细代码和使用说明,吸引了全球AI社区的广泛关注。
核心功能
Dolphin 提供以下关键功能,满足文档图像解析的多样化需求:
功能 | 详情 |
|---|---|
两阶段解析方法 | 第一阶段:页面级布局分析,生成自然阅读顺序的元素序列;第二阶段:并行解析文本、表格、图形和公式,使用异构锚点和任务特定提示。 |
多模态处理能力 | 能够处理文档图像中的文本、表格、图形和公式等多种元素,确保全面解析。 |
结构化输出 | 将文档图像转换为结构化的JSON和Markdown格式,方便后续处理和集成。 |
开源与易用性 | 以MIT许可证开源,作为Hugging Face的VisionEncoderDecoderModel实现,与Transformers库无缝集成。 |
高效部署 | 参数量为398M,支持I64和FP16张量类型,适合多种硬件环境。 |
什么是Dolphin?
Dolphin(文档图像解析通过异构锚点提示,Document Image Parsing via Heterogeneous Anchor Prompting)是一款由ByteDance开发的开源多模态AI模型,专注于解析复杂文档图像。它通过两阶段方法处理包含文本、表格、图形和公式等交织元素的文档图像。第一阶段通过页面级布局分析生成自然阅读顺序的元素序列,第二阶段利用异构锚点和任务特定提示并行解析不同元素,生成结构化的JSON和Markdown输出。Dolphin基于视觉编码器-解码器架构,视觉编码器采用Swin Transformer提取视觉特征,文本解码器使用MBart生成文本输出。该模型以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供代码和文档,支持开发者快速集成到项目中。
主要功能
两阶段解析方法:Dolphin采用创新的分析-解析范式。第一阶段通过页面级布局分析,生成自然阅读顺序的元素序列,确保准确理解文档结构。第二阶段利用异构锚点和任务特定提示并行解析文本、表格、图形和公式,提升处理效率。
多模态处理能力:Dolphin能够处理文档图像中的多种元素,包括文本段落、表格、图形和公式,确保全面解析复杂文档内容。
结构化输出:将文档图像转换为结构化的JSON和Markdown格式,方便开发者进行数据分析、数据库录入或进一步处理。
开源与易用性:Dolphin以MIT许可证开源,作为Hugging Face的VisionEncoderDecoderModel实现,与Transformers库无缝集成,开发者可通过简单的API调用快速部署。
高效部署:模型参数量为398M,支持I64和FP16张量类型,适合在多种硬件环境中运行,降低部署门槛。
适用场景
Dolphin的多功能性使其适用于多种场景:
文档数字化:将扫描文档、数字PDF或其他图像格式的文档转换为可搜索的数字格式,适用于档案管理或电子化流程。
数据提取:从复杂文档中提取特定数据点,如表格中的数值或公式中的变量,适合数据分析或数据库录入。
内容理解:通过解析文档布局和内容关系,提供深入的文档洞察,适用于学术研究或商业智能。
企业应用:为企业提供高效的文档处理解决方案,优化工作流程,如合同分析或财务报表处理。
为什么选择Dolphin?
Dolphin通过结合计算机视觉和自然语言处理技术,为复杂文档图像解析提供了强大的解决方案。其创新的两阶段解析方法(布局分析+并行解析)显著提升了处理效率和准确性,特别适合处理包含交织元素的文档。相比传统文档解析工具,Dolphin能够自动适应复杂布局,减少手动干预。作为一款开源模型,Dolphin以MIT许可证发布,托管在 Hugging Face,并通过 GitHub 提供详细代码和文档,降低了使用门槛。用户反馈显示,Dolphin在处理多模态文档时表现出色,尤其在数据提取和内容理解任务中受到广泛好评。社区认为,Dolphin是“文档解析领域的突破性工具”,推动了AI在文档处理中的应用。
用户反馈
Dolphin自2025年5月19日发布以来,受到AI社区的广泛关注。据 Hugging Face 数据,模型在发布后一个月内下载量达516次,显示出开发者对其的浓厚兴趣。X用户@AdinaY在 Hugging Face帖子 中称赞Dolphin为“多模态文档解析的突破”,指出其分析-解析范式和智能提示功能显著提升了处理效率。社区期待Dolphin未来推出更多优化版本和演示工具,进一步扩展其应用场景。
立即体验
Dolphin现已通过 Hugging Face 提供免费访问,开发者可下载模型并通过Transformers库集成到项目中。详细使用说明和代码可在 GitHub 找到。ByteDance计划发布Dolphin的在线演示,建议关注官方更新以获取最新动态。立即探索Dolphin,体验AI驱动的文档解析新方式!
数据统计
Dolphin访问数据评估
本站AI工具导航提供的Dolphin页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年5月24日 下午5:13收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替




