General365 是什么?
General365 是美团 LongCat 团队发布的通用推理评测基准,用于评估大语言模型在日常逻辑推理场景中的表现。数据集包含 365 道原创种子题与大量扩展变体,覆盖复杂约束、递归回溯、语义干扰、概率不确定性等多个维度。项目将知识范围限制在 K-12 水平,以降低专业知识影响,重点考察模型的通用推理能力。官方同时提供 GitHub、HuggingFace 数据集与论文。
核心功能
- 365 道原创推理题
- 覆盖八类推理挑战
- 支持模型横向评测
- 开放数据集与代码
- 结合规则与模型评分
使用场景
- 大模型推理评测
- 学术研究
- 模型选型测试
- 推理能力分析
适合谁用
适合 AI 研究人员、模型评测团队与学术机构
优缺点
优点
缺点
类似工具
社区信号
- GitHub Stars
- 73
- Forks
- 3
- 最近更新
- 1 个月前
- 维护状态
- 活跃维护
- 主语言
- Python
常见问题
General365 是什么?
用于评测大模型通用逻辑推理能力的开源基准。
General365 由谁开发?
General365 由 meituan-longcat 开发。
General365 如何收费?
General365 的定价模式为:unknown。
