CURRENTVIEWING
CH最近收录AI
VIEWS12
▸ 最近收录AI · SITES

General365 SITES

用于评测大模型通用逻辑推理能力的开源基准。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · 中文/多语言
收录 2026年5月20日更新 2026年5月20日浏览 12

// 01 General365 是什么

General365 是美团 LongCat 团队发布的通用推理评测基准,用于评估大语言模型在日常逻辑推理场景中的表现。数据集包含 365 道原创种子题与大量扩展变体,覆盖复杂约束、递归回溯、语义干扰、概率不确定性等多个维度。项目将知识范围限制在 K-12 水平,以降低专业知识影响,重点考察模型的通用推理能力。官方同时提供 GitHub、HuggingFace 数据集与论文。

核心功能

  • 365 道原创推理题
  • 覆盖八类推理挑战
  • 支持模型横向评测
  • 开放数据集与代码
  • 结合规则与模型评分

使用场景

  • 大模型推理评测
  • 学术研究
  • 模型选型测试
  • 推理能力分析

适合谁用

适合 AI 研究人员、模型评测团队与学术机构

常见问题

**Q: General365 是什么?**

General365 是一个用于测试大模型通用逻辑推理能力的开源评测基准。

**Q: General365 怎么用?**

研究人员可下载数据集与评测代码,对模型进行标准化测试。

**Q: General365 收费吗?**

项目以开源形式发布,可免费获取公开数据与代码。

资料来源

  • https://general365.github.io/
  • https://github.com/meituan-longcat/General365
  • https://ai-bot.cn/general365/

// 02 核心 功能

  • 核心定位用于评测大模型通用逻辑推理能力的开源基准。
  • 分类索引当前归档在 最近收录AI,方便和同频工具横向比较。
  • 能力标签关联标签包括 type:project、开源、大模型、LLM、Benchmark、verify:verified。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 最近收录AI 定位和 type:project、开源、大模型 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

General365 是什么?
用于评测大模型通用逻辑推理能力的开源基准。
General365 适合哪些场景?
可优先参考它所属的 最近收录AI 分类,以及 type:project、开源、大模型、LLM、Benchmark 等标签。
General365 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
General365 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 最近收录AI 全部