// 01 RedKnot 是什么

快速结论
RedKnot(小红书 rednote 机器学习团队)是一套长上下文推理加速系统,不是独立模型,而是基于 SGLang 给现有大模型(Qwen3、Qwen3.5-MoE、Mistral-7B、Llama-3.3-70B、DeepSeek-V4 等)优化服务、降低推理开销。截至 2026-07,Apache 2.0 开源。
适合谁优先使用
- 自部署大模型、要优化长上下文推理的团队
- 做 RAG / 长文档任务、想降 TTFT(首 token 时延)的场景
- 关注推理成本 / FLOPs 削减的工程 / MLOps
- SGLang 生态用户
核心能力拆解
注意力头分类
把注意力头分成 global / local / retrieval / dense 四类,选择性复用 KV 缓存。
弹性稀疏
对低贡献 token 跳过前馈(FFN)计算,省算力。
长上下文预填加速
主要加速 long-context prefill,做到近乎无损精度、更快的首 token 时延。
实测提速
Qwen3-32B(HotpotQA)1.39-1.93x、约 70% FLOPs 削减;Qwen3.5-35B-MoE(LongBench)1.87-2.16x、约 50% 省算力。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 自部署 + 长上下文推理加速 | RedKnot | SGLang 上即插、近无损 |
| 通用推理服务 | vLLM / SGLang 原生 | RedKnot 是其上的加速层 |
| 只用在线 API | 直接调 API | 加速框架用不上 |
国内平替:国产推理加速方向可看各家 vLLM / SGLang 优化与 KV 稀疏方案;RedKnot 是国产(小红书)开源实现。
限制与避坑
- 是推理优化软件不是模型,没有权重
- 主要收益在长上下文场景,短上下文提升有限
- 需自部署 + SGLang,纯 API 用户用不到
- 提速数字随模型 / 任务变化,以实测为准
NavXD 使用建议
自己部署大模型、又跑长文档 / RAG / 长上下文任务的团队,RedKnot 能实打实降时延和算力;只用在线 API 的用不上。小红书出品、GitHub 开源(Apache 2.0),国内可直接用,跟国产模型(Qwen / DeepSeek)搭配顺。
常见问题
RedKnot 是模型吗? 不是,是基于 SGLang 的长上下文推理加速框架,给现有 LLM 提速。
RedKnot 能提速多少? 长上下文场景约 1.4-2.2x、FLOPs 削减 ~50-70%,近乎无损精度(随模型 / 任务变化)。
RedKnot 开源吗? 是,Apache 2.0,GitHub 上开放。

// 02 核心 功能
- 核心定位小红书开源的长上下文推理加速框架(基于 SGLang),给 Qwen3/DeepSeek-V4 等带来 1.4-2.2x 提速、~50-70% FLOPs 削减,Apache 2.0。
- 分类索引当前归档在 AI 大模型 / 对话,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、长上下文、小红书、推理加速、SGLang。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 大模型 / 对话 定位和 开源、长上下文、小红书 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
