CURRENTVIEWING
CH最近收录AI
VIEWS230
▸ 最近收录AI · SITES

CL-bench SITES

CL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准,旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务,并通过严格的验证标准衡量模型的 Context 实时学习水平,是目前检测模型是否具备 Context 学习能力的重要评估工具。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · zh
收录 2026年2月5日更新 2026年2月5日浏览 230

// 01 CL-bench 是什么

核心定义与背景

核心定义

CL-bench(Context Learning Benchmark) 是一种用于测试大语言模型 从指定上下文中实时学习新知识并据此完成任务 的基准。该基准中的每个任务都要求模型必须从上下文提供的 新信息 中获取解决路径,而不能依赖其训练前已存在的记忆内容。

背景

近年来大语言模型在预训练语料覆盖的知识任务上表现突出,但这些表现主要依赖模型训练阶段已学到的知识,对 实时上下文学习 的能力研究和评估较少。CL-bench 的提出正是为了补足这一评估空白:将重点从“只做题”(依赖预训练知识)转向“现场学习”(依赖当前输入的 Context 信息)。


结构与测试设计

基准内容规模

CL-bench 基准包含:

  • 500 个复杂上下文场景,每个场景针对真实世界任务设定复杂语义与推理需求。

  • 1899 项具体任务,覆盖多种类型任务需求。

  • 31607 条验证标准,用于全面检验模型输出的准确性与一致性。

任务维度

CL-bench 测评任务主要涉及以下 4 类广泛情境:

  1. 领域知识推理:对领域特定最新或新定义知识进行归纳与应用。

  2. 规则系统应用:解析并使用由上下文定义的新规则系统解决问题。

  3. 程序性任务执行:在上下文中提供虚构 API、语言规则或命令集,要求模型学习并生成正确代码。

  4. 经验发现与模拟:利用上下文中的数据和约束进行仿真推导与经验总结。

上下文无污染数据设计

CL-bench 通过“无污染设计”策略构造数据集:虚构全新场景、修改现实内容以创建全新变体、纳入预训练数据集中极少出现的内容等,以确保任务所需知识仅存在于上下文本身,不受模型训练数据影响。


主要测评技术特征

自包含的 Context 环境

基准要求模型必须仅依赖当前任务的 context 内容,而不得调用外部记忆或预训练数据知识。这样可客观测试模型是否具备从当前 context 中 提取与应用新知识 的能力。

序列依赖与多轮推理

约 51.1% 的任务设计了多轮交互机制,模型必须在前一轮推理基础上理解和应用新信息,以完成后续任务。这样的设计更接近真实人工智能在复杂任务场景中对 context 学习与应用的需求。

多维度评估体系

每项任务配备多个评估标准(平均每个任务约 16.6 个标准),使得评估覆盖更细粒度的能力维度,而不是仅凭单一指标决定模型能力高低。


实验结果与分析

模型表现结果

在 CL-bench 测评中,全球领先的前十个大语言模型的平均任务完成率约为 17.2%23.7% 不等,即使是表现最好的模型(例如 GPT-5.1),在该基准下的整体解决率也未超过 24%。

核心洞察

这些实验结果表明当前主流大语言模型在 从动态上下文中实时学习新知识并应用 方面仍显不足,大多数模型更依赖内部预训练记忆,而非即时从上下文中提取新信息。


应用场景

模型评估与选型

CL-bench 提供对不同大语言模型在 context 学习能力上的客观比较,有助于研发团队、企业用户或研究机构评估模型在特定动态任务下的真实能力表现。

新模型研发验证

在大语言模型开发过程中,可以将 CL-bench 纳入核心评估流程,以判断新训练方法或架构改进在实时学习与推理能力方面的提升。

AI 教育与研究基准

CL-bench 可作为上下文学习理论和实验研究的标准化基准,为学术和工业研究提供对比和复现的条件,加速该领域基础能力发展。

行业解决方案评估

企业用户在选型现有 AI 解决方案时,可借助 CL-bench 测评报告了解模型在动态输入场景中的拟合能力,为业务需求提供决策依据。


如何使用

获取与准备数据

访问 CL-bench 官方主页或 GitHub 仓库下载测试数据集及验证标准。

集成基准评估

在模型评估流程中引入 CL-bench,将任务数据依次输入模型,并对照官方验证标准批量评估输出结果。

结果量化与比较

根据官方提供的评估指标,计算模型任务完成率、错误率及 context 学习能力分布,应用统计分析方法比较多个模型在不同任务集上的表现差异。


// 04 常见 问题

CL-bench 是什么?
CL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准,旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务,并通过严格的验证标准衡量模型的 Context 实时学习水平,是目前检测模型是否具备 Context 学习能力的重要评估工具。
CL-bench 适合哪些场景?
可优先参考它所属的 最近收录AI 分类,以及 相关能力 等标签。
CL-bench 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
CL-bench 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

类似工具 // V4 图谱1 条
搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 最近收录AI 全部