MetaStone‑S1 如何收费？

MetaStone‑S1 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 大模型

浏览量201

▸ AI 大模型 · 应用工具

MetaStone‑S1 应用工具

深入剖析开源反思型生成模型 MetaStone‑S1：其架构、Test‑Time Scaling、性能基准、实际部署与未来发展，面向 AI 工具使用者的全面指南。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

GitHub收藏 0

收录 2025年7月18日更新 2025年7月18日浏览 201

// 01 MetaStone‑S1 是什么

一、项目简介：什么是MetaStone‑S1？

MetaStone‑S1 是由 MetaStone‑AI 和 USTC 联合推出的开源反思型生成模型（Reflective Generative Model），即首款集成了推理轨迹生成与中间过程评估能力的统一网络模型。该模型仅有最多 32B 参数，通过引入“Reflective Generative Form” 和“Test‑Time Scaling（TTS）”技术，实现了与 OpenAI o3‑mini 系列在数学、代码生成和中文推理任务上可比拟的性能。

核心技术包括：

SPRM（Self‑supervised Process Reward Model）：在模型主体上增加一个轻量评分头，用自监督方式训练，避免依赖中间过程标签。
Test-Time Scaling（TTS）：根据推理需求动态采样多个轨迹并用 SPRM 打分，实现低/中/高三种推理强度。

模型在 Hugging Face 提供了 1.5B、7B、32B 多种规模的checkpoint 与训练评估代码。

1.1 Reflective Generative Form 架构

MetaStone‑S1 将策略网络（policy model）和过程评分模块（PRM）整合为一个共享 Transformer 架构：

主干网络共享：transformer 基础网络同时用于生成和评分；
双任务结构：一个用于 next‑token 预测（policy head），另一个用于过程评分（SPRM head），仅增加 26M–53M 参数；
过程评估机制：以“\n\n”为 step-token 分段，用几何均值计算总体评分。

该架构显著减少了 PRM 的成本（>99%）并统一训练策略和评分机制。

1.2 自监督过程奖励（SPR Loss）

无需手工标注中间 reasoning 流程标签，采用最终答案对逻辑过程中正确步骤进行自监督：

将正确步骤标注为 positive，自监督 loss 更新；
dynamic weight 机制强化可靠步骤，减弱噪声。

1.3 Test-Time Scaling（TTS）

采用多轨迹采样机制，将 k 个轨迹同时生成并评分，选择最高评分输出答案。推理强度可调：

low（k=2）、medium（k=8）、high（k=32）。

TTS 能以可控算力换精度，在数学推理上取得显著效能提升。

二、性能与对比：32B参数的潜力释放

2.1 benchmark 成绩一览

以下为 MetaStone‑S1 在 AIME24、AIME25、LiveCodeBench（代码生成）和 C-EVAL（中文推理）上的表现（以 Pass@1 指标为主）：

模型	AIME24	AIME25	LiveCodeBench	C-EVAL
MetaStone‑S1‑32B‑high	85.2%	73.6%	64.2%	89.7%
OpenAI o3‑mini（medium）	79.6%	74.8%	67.4%	75.9%

可见，MetaStone‑S1 在 AIME24 与 C-EVAL 上全面超越 o3‑mini；LiveCodeBench 表现略低但可调整。

2.2 小型号效果亦优

1.5B 和 7B 模型也在推理与数学 benchmark 中展现出色提升，例如 7B‑high 模型在 AIME24 上达 70.2%，接近甚至超越 8B–32B 同类开源模型。

2.3 ablation 分析

SPRM head 仅增加 ~26M 参数，但带来显著效果提升，胜过 72B PRM 模型；
自监督 loss 优于手动标注或 BCE Loss，可提高数个百分点；
推理强度 k 越大效果趋于饱和；Best‑of‑32 已接近性能上限。

2.4 推理算力对性能的定律

MetaStone‑AI 提出塌缩律（scaling law）：性能随着 total reasoning compute（参数 × token 数量）的对数曲线增长，适度增强推理长度是扩大性能的有效手段。

三、落地指南：如何使用 MetaStone‑S1

3.1 环境安装与配置

在 GitHub 上 clone 项目，建立 Conda 环境并安装相关依赖：

3.2 模型准备

从 Hugging Face 下载 transformer checkpoint（1.5B/7B/32B）以及 SPRM head（score_module.pt）：

3.3 训练流程概览

包括单节点/多节点训练、多进程 ray 模型并行、checkpoint 转 HF 格式脚本等。

3.4 评估流程（Inference & Scoring）

启动 SPRM 评分服务；
启动策略模型服务；
使用 inference.py 对 benchmark 集合进行评估；
compute_metric.py 工具统计 Pass@1。

3.5 调整推理强度

通过参数 --n_samples k 控制推理轨迹数（2/8/32），对应 low/medium/high 模式，实现性能与算力间平衡。

3.6 集成与部署

MetaStone‑S1 架构统一，易于迁移到在线服务、多阶段推理流、CI/CD 或 Agent 系统中，在推理精度与效率间灵活调节。

四、面向 AI 工具使用者的应用场景

数学与代码自动生成
学生或研发者可用 MetaStone‑S1 替代闭源 API，构建本地数学求解器或代码生成系统。
AI ChatBot 增强版
结合 SPRM 分数判断 ChatBot 推理过程，提升对复杂问题的回答质量。
推理研究与策略调优
支持实现 Test‑Time Scaling 跨域实验，可用于研究动态推理策略和资源调度。
低资源设备部署
与其他 32B+ 模型相比，MetaStone‑S1 可调节推理强度，以较低资源实现高性能。
教育与开源协作
作为公开技术栈，适合用于学术教学、开源项目协作、科研扩展。

// 02 核心功能

核心定位深入剖析开源反思型生成模型 MetaStone‑S1：其架构、Test‑Time Scaling、性能基准、实际部署与未来发展，面向 AI 工具使用者的全面指南。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 price-open-source、AI代码生成。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 大模型 / 对话定位和 price-open-source、AI代码生成标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

MetaStone‑S1 是什么？

深入剖析开源反思型生成模型 MetaStone‑S1：其架构、Test‑Time Scaling、性能基准、实际部署与未来发展，面向 AI 工具使用者的全面指南。

MetaStone‑S1 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 price-open-source、AI代码生成等标签。

MetaStone‑S1 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

MetaStone‑S1 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5985.html 官网或下载入口https://github.com/MetaStone-AI/MetaStone-S1 分类与标签体系AI 大模型 / 对话、price-open-source、AI代码生成

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与...

AI 大模型 / 对话AI 工具

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe...

AI 大模型 / 对话AI 工具

Intern-S1-Pro

Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型，具备混合专家（MoE）架构与通专融合架构（SAGE），在 AI4Science 科学推理...

AI 大模型 / 对话AI 工具

MetaStone‑S1 应用工具

// 01 MetaStone‑S1 是什么

一、项目简介：什么是MetaStone‑S1？

1.1 Reflective Generative Form 架构

1.2 自监督过程奖励（SPR Loss）

1.3 Test-Time Scaling（TTS）

二、性能与对比：32B参数的潜力释放

2.1 benchmark 成绩一览

2.2 小型号效果亦优

2.3 ablation 分析

2.4 推理算力对性能的定律

三、落地指南：如何使用 MetaStone‑S1

3.1 环境安装与配置

3.2 模型准备

3.3 训练流程概览

3.4 评估流程（Inference & Scoring）

3.5 调整推理强度

3.6 集成与部署

四、面向 AI 工具使用者的应用场景

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源