// 01 GeneBench-Pro 是什么

快速结论
GeneBench-Pro 是 OpenAI 于 2026-06-30 发布的基因组学与生物医学 AI 评测基准(Benchmark),用来考察 AI 智能体在真实、多阶段科研数据分析中的"科研判断力"。它包含 129 道人工构造、刻意带噪声的题目,覆盖基因组学、定量生物学与转化医学共 10 个领域、21 个子领域。截至发布,最强成绩为 OpenAI GPT-5.6 Sol Pro 的 31.5% 通过率(Anthropic Claude Opus 4.8 为 16.0%),说明顶尖模型在真实生物科研上仍大幅不及格。国内查看 OpenAI 官网需梯子,数据集在 HuggingFace 公开。
适合谁优先使用
- 做生物信息 / 基因组学 / 计算生物学的研究者
- 评测大模型科研能力的 AI 研究团队
- 关注 AI for Science、AI 制药方向的从业者
- 想搞清"AI 能不能做真实科研数据分析"的技术决策者
核心能力拆解
129 道多阶段真实题
每题配一份真实且带噪声的数据集 + 一个与下游决策挂钩的目标估计量,考察端到端分析。
覆盖 10 领域 21 子领域
含统计遗传、群体基因组、定量遗传、调控组学、功能基因组、蛋白质组、临床药物基因组、癌症体细胞基因组、微生物基因组、法医遗传等。
考"科研判断力(research taste)"
不只算答案,还考:识别测量误差 / 选择偏差 / 混杂 / 质控失败、在竞争模型间取舍、判断结果是否"可决策"。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 评测 AI 生物科研能力 | GeneBench-Pro | 真实多阶段基因组学任务 |
| 通用推理评测 | 综合基准(如 GPQA 类) | 非领域特化 |
| 医学问答评测 | MedQA 类 | 偏知识问答而非数据分析 |
国内平替:暂无同规模的中文基因组学 AI 基准。
限制与避坑
- 它是评测基准,不是可直接使用的工具或模型。
- 题目为合成构造(贴近真实但非真实病例),结论要结合具体场景解读。
- 通过率低说明当前模型远未达到独立做科研的水平,别过度解读单一分数。
NavXD 使用建议
把 GeneBench-Pro 当作"给 AI 科研能力祛魅"的标尺:选模型做生物医学数据分析前,用它的结论理解上限——目前仍需人类专家主导、AI 作辅助。

// 02 核心 功能
- 核心定位OpenAI 发布的基因组学与生物医学 AI 基准,129 道真实带噪科研题,顶尖模型通过率仅三成。
- 分类索引当前归档在 AI 医疗,方便和同频工具横向比较。
- 能力标签关联标签包括 OpenAI、AI for Science、AI基准、AI科研、基因组学、生物医学。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 医疗 定位和 OpenAI、AI for Science、AI基准 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
GeneBench-Pro 是什么?
OpenAI 发布的基因组学与生物医学 AI 基准,129 道真实带噪科研题,顶尖模型通过率仅三成。
GeneBench-Pro 适合哪些场景?
可优先参考它所属的 AI 医疗 分类,以及 OpenAI、AI for Science、AI基准、AI科研、基因组学 等标签。
GeneBench-Pro 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
GeneBench-Pro 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
