// 01 HPC-Ops 是什么

快速结论
HPC-Ops 是腾讯混元 AI 基础设施团队开源的生产级、高性能 LLM 推理算子库,专注「主导实际服务延迟和吞吐的热路径」——注意力、MoE、GEMM、采样、归一化、通信-计算融合等优化。它通过 Python API 集成进 vLLM、SGLang 等推理框架,或直接调用算子(如 hpc.group_gemm_pertensor_fp8())。技术栈含 CUDA / C++17 / CuTe / CUTLASS,面向 NVIDIA H20(SM90、CUDA 12.8+)。MIT 协议开源,国内可直连。
适合谁优先使用
- 做 LLM 推理加速、部署优化的工程师
- 用 vLLM / SGLang 的推理平台团队
- 高性能计算、AI 基础设施开发者
- 需要榨干推理延迟 / 吞吐的企业
核心能力拆解
生产级高性能算子库
覆盖推理热路径:注意力、MoE、GEMM、采样、归一化、通信-计算融合。
易集成
Python API 接进 vLLM / SGLang,或直接调算子。
硬件针对
面向 NVIDIA H20(SM90),CUDA 12.8+。
开源
MIT 协议,CuTe / CUTLASS 等底层栈。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 生产级推理算子库 | HPC-Ops | 要榨干热路径性能 |
| 推理引擎 | vLLM / SGLang | 要整套推理框架 |
| 底层模板库 | CUTLASS / Triton | 要从零写算子 |
国内平替:推理引擎用 vLLM、LMDeploy;算子优化多为各厂内部,开源同类少。
限制与避坑
- 高度专业(CUDA 算子),面向推理 / HPC 工程师,非通用工具
- 绑定 NVIDIA H20 / SM90 + CUDA 12.8+,硬件要求具体
- 集成需懂 vLLM / SGLang
- MIT 开源
典型工作流
给推理框架提速
- 安装 HPC-Ops
- 通过 Python API 接进 vLLM / SGLang(或直接调 hpc.* 算子)
- 在热路径替换 / 加速
- 压测延迟与吞吐
常见问题
HPC-Ops 是什么?
腾讯混元开源的生产级 LLM 推理算子库。
谁做的?
腾讯混元 AI 基础设施团队。
免费吗?
MIT 开源。
硬件要求?
NVIDIA H20(SM90),CUDA 12.8+。
NavXD 使用建议
如果你做 LLM 推理部署、要在 vLLM / SGLang 上压榨延迟和吞吐,HPC-Ops 这种生产级算子库很实用;但它高度专业、硬件绑定 H20,普通开发者用现成推理引擎即可。
// 02 核心 功能
- 核心定位快速结论 HPC-Ops 是腾讯混元 AI 基础设施团队开源的生产级、高性能 LLM 推理算子库,专注「主导实 […]
- 分类索引当前归档在 AI 编程,方便和同频工具横向比较。
- 能力标签关联标签包括 腾讯混元、HPC、CUDA、推理加速、算子库。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 编程 定位和 腾讯混元、HPC、CUDA 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
HPC-Ops 是什么?
快速结论 HPC-Ops 是腾讯混元 AI 基础设施团队开源的生产级、高性能 LLM 推理算子库,专注「主导实 […]
HPC-Ops 适合哪些场景?
可优先参考它所属的 AI 编程 分类,以及 腾讯混元、HPC、CUDA、推理加速、算子库 等标签。
HPC-Ops 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
HPC-Ops 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
