CL-bench

10小时前发布 5 00

CL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准,旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务,并通过严格的验证标准衡量模型的 Context 实时学习水平,是目前检测模型是否具备 Context 学习能力的重要评估工具。

站点语言:
zh
收录时间:
2026-02-05
CL-benchCL-bench
问小白

核心定义与背景

核心定义

CL-bench(Context Learning Benchmark) 是一种用于测试大语言模型 从指定上下文中实时学习新知识并据此完成任务 的基准。该基准中的每个任务都要求模型必须从上下文提供的 新信息 中获取解决路径,而不能依赖其训练前已存在的记忆内容。

背景

近年来大语言模型在预训练语料覆盖的知识任务上表现突出,但这些表现主要依赖模型训练阶段已学到的知识,对 实时上下文学习 的能力研究和评估较少。CL-bench 的提出正是为了补足这一评估空白:将重点从“只做题”(依赖预训练知识)转向“现场学习”(依赖当前输入的 Context 信息)。


结构与测试设计

基准内容规模

CL-bench 基准包含:

  • 500 个复杂上下文场景,每个场景针对真实世界任务设定复杂语义与推理需求。

  • 1899 项具体任务,覆盖多种类型任务需求。

  • 31607 条验证标准,用于全面检验模型输出的准确性与一致性。

任务维度

CL-bench 测评任务主要涉及以下 4 类广泛情境:

  1. 领域知识推理:对领域特定最新或新定义知识进行归纳与应用。

  2. 规则系统应用:解析并使用由上下文定义的新规则系统解决问题。

  3. 程序性任务执行:在上下文中提供虚构 API、语言规则或命令集,要求模型学习并生成正确代码。

  4. 经验发现与模拟:利用上下文中的数据和约束进行仿真推导与经验总结。

上下文无污染数据设计

CL-bench 通过**“无污染设计”策略**构造数据集:虚构全新场景、修改现实内容以创建全新变体、纳入预训练数据集中极少出现的内容等,以确保任务所需知识仅存在于上下文本身,不受模型训练数据影响。


主要测评技术特征

自包含的 Context 环境

基准要求模型必须仅依赖当前任务的 context 内容,而不得调用外部记忆或预训练数据知识。这样可客观测试模型是否具备从当前 context 中 提取与应用新知识 的能力。

序列依赖与多轮推理

约 51.1% 的任务设计了多轮交互机制,模型必须在前一轮推理基础上理解和应用新信息,以完成后续任务。这样的设计更接近真实人工智能在复杂任务场景中对 context 学习与应用的需求。

多维度评估体系

每项任务配备多个评估标准(平均每个任务约 16.6 个标准),使得评估覆盖更细粒度的能力维度,而不是仅凭单一指标决定模型能力高低。


实验结果与分析

模型表现结果

在 CL-bench 测评中,全球领先的前十个大语言模型的平均任务完成率约为 17.2%23.7% 不等,即使是表现最好的模型(例如 GPT-5.1),在该基准下的整体解决率也未超过 24%。

核心洞察

这些实验结果表明当前主流大语言模型在 从动态上下文中实时学习新知识并应用 方面仍显不足,大多数模型更依赖内部预训练记忆,而非即时从上下文中提取新信息。


应用场景

模型评估与选型

CL-bench 提供对不同大语言模型在 context 学习能力上的客观比较,有助于研发团队、企业用户或研究机构评估模型在特定动态任务下的真实能力表现。

新模型研发验证

在大语言模型开发过程中,可以将 CL-bench 纳入核心评估流程,以判断新训练方法或架构改进在实时学习与推理能力方面的提升。

AI 教育与研究基准

CL-bench 可作为上下文学习理论和实验研究的标准化基准,为学术和工业研究提供对比和复现的条件,加速该领域基础能力发展。

行业解决方案评估

企业用户在选型现有 AI 解决方案时,可借助 CL-bench 测评报告了解模型在动态输入场景中的拟合能力,为业务需求提供决策依据。


如何使用

获取与准备数据

访问 CL-bench 官方主页或 GitHub 仓库下载测试数据集及验证标准。

集成基准评估

在模型评估流程中引入 CL-bench,将任务数据依次输入模型,并对照官方验证标准批量评估输出结果。

结果量化与比较

根据官方提供的评估指标,计算模型任务完成率、错误率及 context 学习能力分布,应用统计分析方法比较多个模型在不同任务集上的表现差异。


常见问题(FAQ)

Q1: CL-bench 的核心评估目标是什么?
A1: 测试模型是否能从当前任务上下文中学习到新信息并正确应用,而非依赖预训练知识。

Q2: CL-bench 数据为何强调“无污染”?
A2: 为确保模型必须从提供的 context 中学习解决方法,而不是从训练阶段数据中记忆答案。

Q3: 该基准包含哪些任务类型?
A3: 包括领域知识推理、规则系统应用、程序性执行任务和经验模拟类任务。

Q4: 为什么模型在 CL-bench 表现不佳?
A4: 当前大语言模型在动态 context 学习、实时知识内化与迁移方面存在明显短板。

Q5: 是否可以与其他基准联合使用?
A5: 是,CL-bench 可与传统知识推理或语言理解评估基准配合,以全面评估模型能力。


术语定义

Context 学习
指模型从当前输入的上下文中即时提取知识并据此调整理解和推理过程的能力,与传统依赖预训练记忆不同。

无污染设计
通过构造虚构或变体数据确保基准任务信息不在预训练语料中出现,使模型不得不依赖 context 学习。

数据统计

CL-bench访问数据评估

CL-bench浏览人数已经达到5,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议以爱站数据为准,更多网站价值评估因素如:CL-bench的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找CL-bench的站长进行洽谈提供。如该站的IP、PV、UV、跳出率等!

关于CL-bench特别声明

本站AI工具导航提供的CL-bench页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2026年2月5日 下午9:05收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。

相关AI工具平替

提示词商城

暂无评论

none
暂无评论...