一、什么是Goedel‑Prover‑V2?
Goedel‑Prover‑V2 是由普林斯顿大学联合清华、北大、斯坦福、NVIDIA、Meta FAIR、亚马逊等顶尖机构推出的开源自动定理证明模型,基于Qwen3‑8B 与 32B 模型进行专家迭代与强化学习训练。
它专注于自动生成和验证 Lean 4 形式化证明,是自动化数学定理推理领域的旗舰模型,支持 8B 与 32B 两个参数规模版本。
二、突出性能表现与突破
2.1 MiniF2F基准
8B 模型 在 MiniF2F Pass@32 上达 83.3%,性能比肩 DeepSeek‑Prover‑671B(671B 模型)。
32B 模型 在无自我修正的基础模式下 Pass@32 达 88.0%,而启用自我修正则达 90.4% 。
2.2 PutnamBench 排行
32B自我修正模式在 Pass@64 下解决了 64 道难题,一举登顶 PutnamBench,超过 DeepSeek‑Prover‑671B 的 47 道作答记录。
2.3 MathOlympiadBench
首发包含 360 道 IMO 级别问题的 MathOlympiadBench,在该数据集上 32B 模型同样展现领先能力。
2.4 推理规模曲线
32B 模型在各种 sampling budget 下均稳定领先多项其他顶级模型。
三、模型创新与训练方法
3.1 专家迭代 + 强化学习
以 Qwen3‑8B / 32B 为基础,采用专家示例引导、证明生成、验证采纳,再结合 Clan feedback 进行强化学习优化。
3.2 分层式数据合成
使用 Scaffolded Data Synthesis 自动生成难度递进的中间证明任务,建立平滑难度曲线,提升训练效率。
3.3 验证器引导的自我修正
模型输出初始证明后,会基于 Lean 编译反馈进行两轮自我修正,将反馈机制融入训练与推理阶段,改善正确率。
3.4 模型平均机制
训练到一定阶段时,将多个 checkpoint 与基座模型执行加权平均,用以恢复模型多样性,提升鲁棒性与 Pass@K 能力。
四、技术架构与流程详解
4.1 输入与输出
输入一条 Lean 4 形式化命题,模型生成候选证明片段,通过 Lean 编译器验证是否成立,不成立则根据错误进行修正。
4.2 推理流程
标准模式:直接生成单次推理证明输出;
自我修正模式:生成 + Lean 验证反馈 + 两轮迭代修正,共消耗约 40K token,上下文窗口默认 32K。
4.3 训练脚本
开源 repo 包含问题形式化、初步生成、验证反馈与 RL 策略脚本,支持 researchers reproduction 和定制训练流程。
五、如何使用 Goedel‑Prover‑V2?
5.1 模型获取
模型与 benchmark 可从 Hugging Face 下载:
Goedel‑Prover‑V2‑32B;Goedel‑Prover‑V2‑8B
均采用 Apache‑2.0 开源协议。
数据集 MathOlympiadBench 也同步开源,支持研究使用。
5.2 快速推理示例
from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "Goedel-LM/Goedel-Prover-V2-32B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="auto") prompt = "theorem my_theorem : ... proof :=" inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=4096) print(tokenizer.decode(outputs[0]))
用户可根据需要自行部署于 GPU 或支持 local inference platforms(如 llama.cpp),结合自定义验证器调用 Lean。
六、适用场景与目标用户
6.1 研究者与教育者
适合数学 AI、形式化定理证明方向的科研人员和教师,用于教学实验、benchmark 比对、方法创新等。
6.2 Agent 构建者
可作为推理工具接入 Agent 系统,通过函数调用处理形式化证明任务。
6.3 数学竞赛组织者
可自动生成或验证 mathematical formal proofs,辅助出题、评测或赛后校对。
6.4 AI 开发者
适合想集成形式验证能力的 AI 工具开发者,用于 proofs 校验与自动推理服务。
七、用户常见问题(FAQ)
Q1:Goedel‑Prover‑V2 是完全开源吗?
是,模型权重、代码、训练脚本及 benchmark 均在 GitHub 与 Hugging Face 开源,并采用 Apache‑2.0 授权。
Q2:8B 与 32B 模型差异?
8B 模型性能与 671B 基准模型相当,适用于资源有限场景;32B 模型性能上全面领先,适合重度使用。
Q3:如何启用自我修正?
使用输出反馈机制 pipeline,通常配合模型 API 设置两轮 Lean 编译修正,可查阅 repo code 示例。
Q4:支持哪些基准?
支持 MiniF2F、PutnamBench、MathOlympiadBench,覆盖整数级到 IMO 类难度。
Q5:训练资源需求高吗?
训练涉及专家迭代与 RL,对 GPU 需求较高,建议使用 A100/H100多卡或集群训练环境。
Q6:可否用于商业用途?
在 Apache‑2.0 许可范围内可用于商用,但若涉及闭源配套工具建议与作者团队沟通。
Q7:如何参与社区?
欢迎在 GitHub 提交 issue、贡献示例、benchmark 用例,目前已有不同参与者活跃。
Q8:未来发展?
社区或将推动更多语境类型(如几何、泛理论化证明)、更大模型优化及更高效推理机制。
八、优势与挑战比较
| 特性/维度 | Goedel‑Prover‑V2 | 其他开源模型 | 闭源商业模型 |
|---|---|---|---|
| 参数规模 | ✅ 8B 和 32B,资源选择灵活 | ✖ 小模型多为性能不足 | ✅ 常见较大但不透明 |
| 自我修正机制 | ✅ Lean 编译反馈,无限迭代可开关 | ✖ 多无反馈机制 | ✖ 无自我反馈 |
| 基准成绩 | ✅ SOTA MiniF2F、PutnamBench等 | △ 常欠优化 | ✅ 大模型常优 |
| 推理效率 | ✅ 曲线平滑,低 Pass 即效率高 | ✖ 常需高sampling | ⚠ API 推理受限成本较高 |
| 部署灵活性 | ✅ 本地推理 + open source | ✅ 部署灵活 | ❌ 闭源 + 云端 API 限制 |
九、未来趋势与发展建议
集成更多 Lean 库支持:如 mathlib4 全库多语言形式化。
优化轻量端推理:推出 quantized GGUF 格式,支持 local CPU inference。
社区 benchmark 丰富:引入几何定理、组合数学、拓扑等形式化挑战。
自动生成训练数据:使用 scaffolded synthesis 扩大训练样本与多样性。
结合 Agent 框架:将证明系统嵌入 Agent、中间件或 API,支持智能助手集成。
十、总结
Goedel‑Prover‑V2 展现了 “小模型赢大规模” 的强大能力,以带反馈的专家迭代和验证器自修正机制,实现了在多个已知自动定理证明基准的 SOTA 表现。它不仅是形式化数学推理领域的重要突破,也为 AI 工具使用者提供了自动证明、数学推理与 Agent 整合的技术底座。无论你是学术研究者、数学教育者,抑或 AI 产品开发者,Goedel‑Prover‑V2 都是探索数学智能自动化的不二选择。



