DataChef 是什么?
DataChef 是上海人工智能实验室与复旦大学联合推出的数据配方生成模型,主要用于自动生成大模型训练数据处理流水线。论文显示,DataChef-32B 可根据目标 benchmark 与候选数据源,自动完成数据选择、清洗、合成、配比与验证流程,并输出可执行 Python 数据处理代码。该项目通过在线强化学习与代理奖励机制优化数据配方生成,用于自动化 LLM Adaptation 与数据工程场景。官方已开源模型、代码与 Hugging Face Demo。
核心功能
- 自动生成数据配方
- 支持强化学习优化
- 输出可执行代码
- 支持数据清洗与配比
- 支持 Hugging Face Demo
使用场景
- LLM 数据构建
- 模型微调
- 数据工程自动化
- 领域模型训练
- AI 研究自动化
适合谁用
适合大模型研究人员与数据工程团队
优缺点
优点
缺点
类似工具
社区信号
- GitHub Stars
- 23
- Forks
- 4
- 最近更新
- 3 个月前
- 维护状态
- 维护放缓
- 主语言
- Python
常见问题
DataChef 是什么?
上海 AI Lab 与复旦大学开源的数据配方生成模型。
DataChef 由谁开发?
DataChef 由 yichengchen24 开发。
DataChef 如何收费?
DataChef 的定价模式为:unknown。
