OctoCodingBenchOctoCodingBench 是一个针对编码智能体评估的数据集,包含多源指令任务、系统提示与评估检查项,用于测量智能体在多样编码任务中的规则遵从性与执行能力。020最近收录AI自主智能系统# Docker 任务环境# 指令遵从评估# 智能体评估