AI 工具雷达// NavXD.v2LIVE
TUNEDCH 10
RESULTS82
PAGE1 / 6
CH 10 FREQUENCY · AI 音频

AI 音频

AI 工具 · AI 音频 频段,本页汇总 82 个相关工具与入口。

已收录工具
82
本周 +3
国内可用
85%
70 / 82
本周新发现
3
扫描中
综合评分
8.4/10
类别平均
SORT
#001

OpenLess #001

一个开源 AI 语音输入工具,支持通过全局快捷键进行语音录入,并自动将口语内容整理为更适合书写、聊天或 AI Prompt 使用的文本。

国内直连VIEW
#002★ 1

Realtime TTS-2 #002

Inworld AI 推出的实时语音合成模型(Realtime Text-to-Speech),主要面向 AI 语音助手、游戏 NPC、虚拟人、客服与实时语音交互场景。

国内直连VIEW
#003★ 2

Violin,牛津大学研究人员 Kevin Lin 开源的 AI 视频翻译项目 #003

从原始视频中提取语音、生成目标语言音频,并尽量保持说话者的声音风格与视频同步效果,适合 AI 视频本地化与多语言内容生产场景。

国内直连VIEW
#004★ 215

VibeVoice-ASR #004

VibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。

国内直连VIEW
#005★ 257

VoiceSculptor #005

VoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成(Instruct TTS)系统,基于 LLaSA 与 CosyVoice2 支持自然语言描述控制音色、语速、音调、情感等属性,并可用于...

国内直连VIEW
#006★ 243

NeverCap #006

一款提供“真正 无限”AI 音频与视频转录服务的平台。

国内直连VIEW
#007★ 252

Spokenly #007

Spokenly 是一款适用于 macOS / iOS 的智能语音听写与语音-驱动输入工具,支持 100+ 语言、离线转写与云服务、实时语音转文字、AI 文本润色、语音命令控制,适合写作、会议记录、聊天、编程、文档编辑...

国内直连VIEW
#008★ 227

StepAudio R1 #008

StepAudio R1 是首个真正能对音频进行“Chain-of-Thought(CoT)推理 / 深度分析”的开源音频语言模型,支持对说话、音乐、环境音进行理解、推理与分析,适合开发者、研究者、内容创作者用于音频理...

需国际网络VIEW
#009★ 481

小凹语音输入法 #009

“小凹语音输入法” 是由 智谱 AI 推出的智能语音转写工具,支持高准确率语音识别、多场景语音输入与自动润色,帮助用户显著提升写作 /输入效率。

国内直连VIEW
#010★ 551

聆音EchoCare #010

聆音EchoCare是一款融合人工智能、声音识别与健康管理技术的智能照护平台,专注于老年人、慢性病患者与居家照护场景。

国内直连VIEW
#011★ 458

字节跳动Seed #011

Seed LiveInterpret 2.0 是字节跳动 Seed 团队推出的端到端双向中英文语音同传模型,支持零样本声音克隆、超低延迟(约 2–3 秒)实时翻译,适用于 AI 工具使用者与跨语言交流场景。

国内直连VIEW
#012★ 314

Mozart AI #012

Mozart AI 是首个AI 驱动的数字音频工作站(DAW),通过自然语言或语音交互生成和编辑音乐元素,提供协助式创作流程,适合 AI 工具使用者和音乐创作者快速落地灵感。

国内直连VIEW
#013★ 494

MakeSong #013

MakeSong 是一款AI歌曲生成器,支持将文本或歌词快速转化为专业级、可商用的 AI 歌曲,适合 AI 工具使用者进行视频背景音乐、社交媒体内容创作与音乐原型制作。

国内直连VIEW
#014★ 539

千音漫语 #014

探索“千音漫语”智能声音创作平台:从配音、翻译、声音克隆到语音识别,揭开其架构与应用秘密,助力 AI 用户构建高效多语种音视频创作流程。

国内直连VIEW
#015★ 473

ThinkSound #015

ThinkSound 是一款基于 Chain-of-Thought 推理的多模态音频生成与编辑框架,支持任意模态输入(视频、文本、音频),可交互地为视频生成高质 Foley 声音、定向对象声音细化和自然语言音频编辑,适...

需国际网络VIEW
#016★ 733

智声云配 #016

智声云配(DubbingX)是一款由智声悦合(杭州)科技推出的 AI 配音与音色克隆平台,支持多语言、多情绪、歌声转换及 API 集成,适用于有声书、游戏、广告、虚拟人等场景,为 AI 用户提供高拟真可商用配音解决方案。

需国际网络VIEW
显示 1 – 16 / 共 82 条 · 第 1 / 6 页
12···6