// 01 MaskSearch 是什么
一、什么是 MaskSearch?
MaskSearch是阿里巴巴与清华、华中科技大学团队联合提出的一种新型通用预训练框架,旨在增强大型语言模型(LLMs)的“agentic search能力”,即自主检索与推理能力。
其核心是引入一种创新预训练任务——检索增强蒙版预测(Retrieval-Augmented Mask Prediction, RAMP)。在该任务中,模型需要通过主动查询工具,从外部知识库检索信息并填补遮蔽文本,训练过程中无需额外监督标注,仅借助公开文本和搜索工具即可大规模构建高质量训练数据。
二、为何要选择 MaskSearch?
选择 MaskSearch 可带来以下优势:
通用搜索推理能力:RAMP 使模型具备跨领域、多跳查找与整合能力,适用于开放域问答场景。
无需领域标签训练:训练仅依赖公开文本和检索系统,无需人工标注问答对,节省成本。
双阶段预训练结构:先 SFT 获得基本能力后使用 RLHF 强化推理质量与格式,通用性与表现稳步提升。
- 课程式训练策略:从简单掩码到复杂多掩码逐步教学,提升训练稳定性和学习效率。
- 大规模评测验证:在 HotpotQA、FanoutQA 等多跳问答数据集上均表现优异,验证框架的可迁移性
三、如何使用 MaskSearch?
3.1 环境搭建与资源获取
下载代码和模型:参照 arXiv 论文获取 GitHub 仓库地址arxiv.org。
配置依赖:安装 Python、PyTorch、检索引擎(如 Elasticsearch)及可连接的互联网检索 API。
3.2 构建 RAMP 训练任务
数据准备:从维基百科等文本语料抽取悬念 span,并随机遮蔽一到四个实体或片段。
预训练执行:模型结合检索模块执行查询,生成链式思维路径(CoT)并填补遮蔽内容。
3.3 使用监督微调(SFT)
数据生成器训练:基于多 agent(planner, observer, rewriter)生成CoT语料作为监督数据,逐步蒸馏模型。
3.4 强化学习(RLHF)优化
DAPO 引导训练:结合答案与格式奖励机制,微调模型进行高质量生成。
3.5 下游任务测试
将 MaskSearch fine-tuned 模型进行 HotpotQA、多跳检索问答测试,验证效果提升。
四、技术核心详解
4.1 RAMP 任务设计
通过检索填补遮蔽文本,不仅训练模型理解上下文,还强化其主动查询与工具使用能力。
4.2 多 Agent CoT 数据构造
利用 planner、rewriter、observer 等 agent,生成高质量链式思维语料,提升训练效果。
4.3 DAPO 强化训练
结合格式化与准确性奖励,保证生成结果的逻辑准确且符合模板要求。
4.4 课程式训练策略
采用从简单到复杂的掩码训练,提高模型泛化能力和训练效率。
五、典型应用场景
多跳问答系统:HotpotQA 和类似任务显著提升跨文档推理能力。
实时信息增强助手:通过检索工具动态获取事实,提高回答准确性。
AI 问答机器人:新闻解读、知识检索工具提升问答体验。
复杂任务指令执行:增强模型依赖外部知识解决步骤较多任务的能力。
开源研究平台示例:为 LLM 检索机制设计提供基础框架参考。
// 02 核心 功能
- 核心定位MaskSearch——一款由阿里巴巴发布的 新型通用预训练框架,采用 RAMP 任务强化检索推理能力,支持 SFT 与 RLHF 多阶训练,广泛适用于多跳问答及开放域问答系统。
- 分类索引当前归档在 AI 编程,方便和同频工具横向比较。
- 能力标签关联标签包括 AI问答机器人。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 编程 定位和 AI问答机器人 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
