一、什么是 Deep Video Discovery
Deep Video Discovery(DVD)是一种针对长视频理解的新型智能代理框架,由微软亚洲研究院与中科大联合开发,发表于2025年5月,并开源于 GitHub(深度研究风格的智能 QA 代理)。它专注于解析数小时长的视频,通过拆分片段、构建多粒度视频数据库、结合工具调用与 LLM 推理策略,实现视频内容深度理解与问答能力。
简而言之,DVD 能自主选择视频段落、调用检索工具、一步步构建答案,远超传统单纯依赖视觉语言模型的问答系统。
二、背景与设计动因
长视频(如会议记录、讲座、电影)内容复杂,包含海量视觉与语义变化,直接用 LLM+VLM 处理易出现上下文忽略和推理盲区,尤其对于时长超过一小时的内容。为此:
DVD 通过多粒度数据库支持片段级检索;
用工具集代替固定流程,实现自主式策略推理;
借助 LLM 规划探索路径,实现灵活问答能力;
这样既保持长上下文的覆盖度,又增强结构化回答过程。
三、模型结构与系统组成
多粒度视频数据库
将长视频切分为多种粒度(如帧、段落、章节)形式,并提取视觉特征与文本元数据,构成Docker化数据库,支持工具快速检索目标位置。
工具集设计
DVD 具备一组“检索工具”:可在数据库上执行关键词查找、语义相似匹配、时间段定位等操作,是超越固定流程的关键。
智能代理规划
核心由 LLM 构成,模型根据问题调用工具、调整参数、筛选结果,后续再调用工具或直接回答,实现动态规划闭环。
四、关键技术亮点
自主式工具调度:无需人工设计的流程,DVD 可灵活规划检索顺序;
LLM 拆解与重构能力:对复杂长视频问题,DVD 会多阶段拆解与迭代推理;
连续性优化:通过工具调用缓存和上下文追踪,防止片段跳跃导致信息缺失。
五、评测指标与实验结果
DVD 在多个长视频理解 benchmark 上取得 SOTA 表现:
LVBench:103个长视频 + 1549个选择题,DVD 在,该 benchmark 中显著领先先前 SOTA 方法;
LongVideoBench(900–3600秒区间,564问题)和 VideoMME(30–60分钟视频)中 DVD 均表现优异;
EgoSchema(500个视频+问答)同样实现较好效果。
这些结果表明 DVD 的多段检索与工具驱动推理对理解长视频高度有效。
六、实际应用场景
教育视频问答检索:学生或教师可向 DVD 提问,如“第2讲何时讨论回归模型?”DVD可检索并定位具体秒数或章节;
会议纪要摘要:输入“本次会议决策事项有哪些?”,DVD会调用工具遍历长段内容,输出结构化摘要;
内容审核与索引:媒体平台需检查长视频是否含敏感内容,DVD可定位具体片段供人工复核;
研究录像助手:科研录像配合 DVD 使用,能快速检索实验结果、会议讨论等目标内容。
七、开源资源与使用方式
GitHub 上的 DVD 仓库包含代理核心代码,包括:
数据预处理(视频切片、特征抽取)
工具调用接口(检索组件)
智能 Agent 脚本(部署 LLM + PVC)
评测代码与数据加载脚本
使用流程:
克隆仓库
准备数据(按文档切片)
安装依赖
运行 DVD agent 输入视频 + 问题
查看工具调用日志与回答结果
八、优势分析与局限
✅ 优势:
具备真正的长格式视频理解能力
自主式工具调用降低手工流程设计成本
在多个 benchmark 上实现 SOTA
⚠️ 限制:
视频预处理与数据库构建资源耗费高;
对 LLM 和检索特征质量依赖度较高;
更复杂实时视频场景尚未探索;
工具调用策略仍是黑盒,可解释性有待提升。
九、未来发展方向
建议关注以下扩展方向:
工具种类拓展:加入 OCR、音频提取、定时自动标注等;
在线学习能力:实现 DVD 持续学习能力;
跨视频统计推理:支持跨多视频问答、分析;
视频剪辑与摘要自动生成:将问答能力扩展为剪辑助手。
十、常见问题(FAQ)
问:Deep Video Discovery 是否免费?
答:代码和技术报告开源免费,使用需配合 LLM 模型和 GPU。
问:支持上传自定义视频吗?
答:支持,用户需切片并构建数据库后注入代理进行推理。
问:是否支持实时视频流?
答:目前设计为离线模式,不支持实时流媒体;未来可能扩展。
问:需要哪些工具依赖?
答:包括视频处理(ffmpeg)、特征提取模型、LLM 接口及检索系统(如 FAISS)。
问:能用于会议录音视频吗?
答:支持,只要视频有清晰画面或字幕,DVD可定位并回答内容。
问:适合谁使用?
答:AI 研究者、产品经理、企业用户以及需要分析长视频内容的人群十分适用。
十一、总结
Deep Video Discovery 是一个具备工具驱动规划能力的强智能代理,能在数小时尺度视频中精准定位、理解并解答复杂问题。它突破了传统视觉语言模型对于长上下文的视频处理瓶颈,为教育、会议分析、媒体审核等领域提供了新范式。
如果你是 AI 工具使用者,建议从以下路径上手:
阅读 arXiv 论文了解设计细节;
克隆并预处理自有视频数据;
用 DVD agent 进行问答和检索验证;
调整检索粒度与工具策略;
扩展工具库或加入摘要生产能力。
Deep Video Discovery 为长格式视频理解指明了方向,它的工具化路径值得各类应用场景深入探索。如有使用问题或开发建议,欢迎随时讨论!
数据统计
Deep Video Discovery访问数据评估
本站AI工具导航提供的Deep Video Discovery页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月9日 下午8:32收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替
女娲智能体OS
Qwen3‑Coder
Jaaz
OctoCodingBench
爱派 (AiPy)
AutoGLM




