// 01 OpenReasoning‑Nemotron 是什么
一、什么是 OpenReasoning‑Nemotron?
OpenReasoning‑Nemotron是 NVIDIA 基于DeepSeek‑R1‑0528 超大模型蒸馏训练的小体量推理模型系列,包含 1.5B、7B、14B 和 32B 参数版本,支持本地和云端部署。模型专注逻辑、数学、科学与代码推理任务,采用纯监督蒸馏 (SFT) 技术,无需强化学习,也支持 GenSelect 多路径解答策略,生成性能在同类开源模型中处于领先水平。
二、核心技术与架构亮点
2.1 DeepSeek‑R1 蒸馏
通过 5 百万条 R1‑0528 推理示例进行 SFT 蒸馏传承推理能力,保证精度,同时显著缩小模型规模。
2.2 多尺寸灵活选择
提供 1.5B、7B、14B、32B 四种可选参数规模,适配不同算力与任务需求。
2.3 GenSelect 生成策略
采用多路径生成(如 64 倍路径)并选择最优答案,尤其 32B 模型可在数学与代码任务中超越 OpenAI o3‑High 性能。
2.4 支持 Qwen‑2.5 架构与 INT8/F16 推理
基于 Qwen‑2.5 架构训练,兼容 FP16、INT8 模式,并支持 TensorRT‑LLM、ONNX、NeMo 加速部署。
2.5 专注推理任务
细化至数学竞赛(AIME、HMMT)、科学高中级测试、代码问答等高认知任务领域,性能数据优异。
三、性能与测评成绩
3.1 数学任务(AIME、HMMT)
| 模型规模 | AIME24 | AIME25 | HMMT Feb 25 |
|---|---|---|---|
| 1.5B | 55.5% | 45.6% | 31.5% |
| 7B | 84.7% | 78.2% | 63.5% |
| 14B | 87.8% | 82.0% | 71.2% |
| 32B | 89.2% | 84.0% | 73.8% |
开启 GenSelect 后,32B 模型 HMMT 精度提升至 96.7%。
3.2 科学与代码推理
在 LiveCodeBench 上,32B 模型得分达 70.2%,开启 GenSelect 后提升至 75.3%;其他版本也稳居开源模型领先 ─ 实现 SOTA 性能。
3.3 综合指标
32B 模型综合指标(如 MMLU-PRO、GPQA 等)得分高达 73.1% 至 80%,推理能力全面。
四、典型使用场景
4.1 教育与竞赛训练
适合应对竞赛题、奥数、推理题等,提供分步解题与高准确度推理能力。
4.2 代码生成与调试
用于编程竞赛、问题分析与脚本生成,适应 Hook、Lib 使用及复杂算法实现。
4.3 科学知识推理
适合物理、化学、科学问答与实验说明,模型对话生成模块可完成逻辑推理与说明。
4.4 Agent 构建基础
可用于多 Agent 系统中的推理核心,例如自动数学求解、知识图谱增强生成、科研自动讨论等。
五、如何使用 OpenReasoning‑Nemotron
5.1 安装方式
可通过 Hugging Face 下载模型:nvidia/OpenReasoning-Nemotron-32B,已提供 GGUF、Safetensors 等量化选项。
5.2 推理示例(Python Transformers)
支持本地离线部署,适配多种部署框架。
5.3 GenSelect 多路径模式
同时并发多条生成路径(如 64 路),采用内部评分机制选择最优输出,理论上需结合 NeMo 或定制调度器实现。
5.4 与 NeMo/TensorRT 集成
可轻松嵌入 NeMo framework / TensorRT‑LLM 加速方案,提升推理效率。
