dots.llm1
小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。
dots.llm1 是什么?
dots.llm1是由中国社交平台小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。它总参数 142B,但每次推理仅激活 14B,有着媲美主流大模型的性能,且训练数据纯净、不依赖合成数据。
2. 怎么使用?
从 Hugging Face 下载:包括基础版(base)和指令调优版(inst),均支持 32K 长上下文。
Docker 部署:提供官方容器镜像,可通过
vLLM、sglang等框架快速启用具 OpenAI 兼容 API 的推理服务。本地 Python 调用:使用
transformers加载模型并在 CPU/GPU 上执行文本生成或聊天任务 。
3. 主要功能
🔹 高效 MoE 架构:每令牌仅激活 14B 专家参数,推理高效节能。
🔹 长上下文支持:最大可处理 32,768 token,适合长文档与上下文应用。
🔹 多语言能力:涵盖中英双语,兼容 base 与 inst 指令版,适应对话与生成任务。
🔹 中间断点公开:每训练 1T tokens 发布断点,助力研究者深入学习路径。
4. 技术原理
MoE 架构与稀疏激活:采用 128 个专家中的 top-6 专家动态激活,加上共享专家以优化效率。
InfLLM v2 稀疏路由机制:实现高效专家选择与大规模参数并行处理。
高质量预训练数据:11.2T 真实文本 token,无合成数据,保证语义质量。
分布式高效计算:结合 interleaved 1F1B 通信策略与 grouped GEMM 优化,支持多 GPU 加速训练。
5. 应用场景
通用问答与对话助手:适合构建本地部署的智能对话系统。
长文档生成与总结:凭借 32K 上下文能力,可进行报告撰写、剧情生成等。
代码生成与理解:指令版适应代码生成任务,能协助开发与自动化编程。
本地部署节省成本:MoE 稀疏激活特性支持在有限资源场景下高效运行。
研究与教学资源:中间 checkpoint 可作为研究工具,深入分析学习过程。
6. 项目地址
GitHub 仓库:
rednote-hilab/dots.llm1(MIT 协议),包括源码、Docker 和部分示例。Hugging Face 模型库:提供
dots.llm1.base和dots.llm1.inst两个版本,以及可试用 demo。ArXiv 技术报告:详细阐述模型架构与训练策略 。
媒体报道:SCMP 文章确认其性能与架构创新。
YouTube 分析视频:多个评测视频展示实际性能表现。
优缺点
优点
缺点
类似工具
常见问题
dots.llm1 是什么?
小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。
dots.llm1 如何收费?
dots.llm1 的定价模式为:unknown。
