// 01 Confucius3-Math 是什么
Confucius3-Math(子曰 3 数学模型)是网易有道 AI 团队于 2025 年 6 月 23 日发布的开源大模型,拥有 14B 参数并且专门针对数学教育优化。旨在通过大规模强化学习和创新的数据调度策略,实现高效的推理能力,尤其在中国 K‑12 和高考类数学场景中表现卓越,力图赋能数学教育工具、教学平台和开发者生态。
核心特性与技术优势
专属数学推理:高基准得分
Confucius3-Math 在多个数学基准数据集(如 CK12-MATH、GAOKAO-Bench、MathBench、MATH-500、AIME)上取得行业领先或超越更大模型的成绩,例如在 GAOKAO-Bench 数学题中得分高达 98.46(GAOKAO)/98.5(中文报道)。其针对中国教育体系做了精细调优,具备强大的题型适应性和解题逻辑。
消费级 GPU 高效部署
该模型可在单块 RTX 4090D 或相当级别 GPU 上无须量化运行,推理性能达 DeepSeek R1 的 15 倍,部署成本仅为每百万 token 约 0.15 美元,极具成本优势。
强化学习精调:RL 提升数学思考能力
通过 novel 强化策略及群体相对优势估算器(group-relative advantage estimator)进行 RL 优化,显著提升模型对解题思路的推理能力,实现更稳与准确的数学解答。
性能表现深度对比
各基准数据集成绩细节
CK12-MATH:得分 92.74,超过 CK12 基准中的多种主流模型。
GAOKAO-Bench(math):得分 98.46,高于 DeepSeek-R1、Qwen3‑14B 和 32B 模型。
MathBench(K12):得分 95.10,与更大模型表现相当。
MATH-500:取得 98.80 高分,远超多个同参数模型。
AIME(数学竞赛):在 2024/2025 年均优于多数主流开源模型,得分 81.15 / 69.95。
这些成绩体现出 Confucius3-Math 在学术与竞赛类数学问题上的通用性与稳定性。
与通用模型对比
尽管参数量为 14B,Confucius3-Math 的数学表现可超越 32B 级通用模型 DeepSeek-R1 和 Qwen3‑14B,在数学逻辑和复杂推理方面具有显著优势,适用于专用 AI 教育场景。
模型架构与训练流程
RL-Enhanced 数学推理优化
Confucius3-Math 采用 RL-only 后训练方式以及创新的数据调度机制和优势估计方式,使数学思考流程更连贯、推理链更稳定。
资源调度与高效训练
训练成本低至约 2.6 万美元(约 18.7 万人民币),显著优于常见大模型投入,凸显其 “轻成本、高性能” 的特点。
开源透明与部署友好
Confucius3-Math 在 HuggingFace、ModelScope、GitHub 公开发布,包含模型权重、推理脚本、Docker 配置、API 示例和技术白皮书,许可灵活,支持 Transformers/vLLM 快速集成。
快速上手指南
支持中文链条式思考输出。
适用于数学教育平台、知识问答系统快速集成。
应用场景与生态前景
AI 教学工具与平台集成
可嵌入在线课堂、作业系统、题库平台,实现自动解题、知识点讲解、步步推导等功能,提升课堂表现和个性化学习效果。
学业辅导与答疑助手
结合模型能力,可开发 Chatbot 辅导产品,辅助中小学学生实现即时反馈与逻辑讲解。
教育研究与数据分析
研究者可基于开源模型分析数学解题流程、建模知识点体系,为 AI 教学评估提供基础工具。
开发者与产品创新
模型可快速集成在各类应用中,如编程答题助手、STEAM 教育工具等,促进 AI 和数学智能交叉创新。
