LongCat-AudioDiT 由谁开发？

LongCat-AudioDiT 由 meituan-longcat 开发。

LongCat-AudioDiT 如何收费？

LongCat-AudioDiT 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 音频

浏览量42

▸ AI 音频 · 应用工具

LongCat-AudioDiT 应用工具

美团 LongCat 团队推出的扩散式高保真语音生成模型。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · 中文/多语言

GitHub收藏 0

收录 2026年5月20日更新 2026年5月20日浏览 42

// 01 LongCat-AudioDiT 是什么

LongCat-AudioDiT 界面截图 — LongCat-AudioDiT · 界面预览

LongCat-AudioDiT 是美团 LongCat 团队推出的扩散式文本转语音（TTS）模型，直接在 waveform latent space 中进行建模。官方资料显示，该模型采用非自回归扩散架构，不依赖 mel-spectrogram 等中间声学表示，可实现高保真语音生成与零样本语音克隆。LongCat-AudioDiT 支持长上下文语音生成、多说话人控制与语音风格迁移，并已在 GitHub 开源推理代码与模型。公开 benchmark 显示，其在说话人相似度与自然度方面取得较高表现。

核心功能

扩散式 TTS 架构
支持零样本语音克隆
直接在 waveform latent space 建模
支持长上下文语音生成
开源推理代码

使用场景

AI 配音
语音克隆
数字人语音
语音助手
播客生成

适合谁用

适合语音 AI 开发者与数字内容团队

// 02 核心功能

核心定位美团 LongCat 团队推出的扩散式高保真语音生成模型。
分类索引当前归档在最近收录AI，方便和同频工具横向比较。
能力标签关联标签包括 type:model、AI配音、tts、扩散模型、语音克隆、LongCat。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合最近收录AI 定位和 type:model、AI配音、tts 标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

LongCat-AudioDiT 是什么？

美团 LongCat 团队推出的扩散式高保真语音生成模型。

LongCat-AudioDiT 适合哪些场景？

可优先参考它所属的最近收录AI 分类，以及 type:model、AI配音、tts、扩散模型、语音克隆等标签。

LongCat-AudioDiT 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

LongCat-AudioDiT 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6686.html 官网或下载入口https://github.com/meituan-longcat/LongCat-AudioDiT 分类与标签体系最近收录AI、type:model、AI配音、tts、扩散模型

Vidu S1

生数科技实时交互视频生成：540P/25fps、时长不限、语音控数字人、照片造角色+音色克隆。

AI 视频AI 工具

SemanticAudio

文本生成音频研究：先语义规划后声学合成两阶段，附免训练文本引导编辑 Semantic FlowEdit。

AI 音频AI 工具

ViiTorVoice

viitor-ai 开源非自回归 TTS：3 秒克隆音色、局部编辑、情感控制、~60ms 低延迟。

AI 音频AI 工具

Voice Agent Builder

xAI 无代码语音 Agent 平台，基于 Grok Voice，2 分钟搭出带电话/检索/工具的生产级语音智能体。

AI Agent / 智能体AI 工具