语音识别与生成

共 105 篇网址

探索前沿的语音识别与生成 AI 工具，涵盖自动语音识别（ASR）、文本转语音（TTS）、语音合成、语音翻译等核心技术。AI工具导航平台汇聚国内外优质的语音 AI 应用与开源项目，助力开发者、企业和研究者高效构建智能语音系统。无论是智能客服、语音助手、无障碍辅助，还是多语言翻译与内容创作，这里都能找到适合的语音识别与生成 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

Stream‑Omni

Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合（文本、图像、语音）并生成文本和语音回应，具备边听边列文字中转、轻量训练与同声互动能力，是 AI 工具使用者构建多模态界面的优秀起点。

04550

开源工具与社区教育者与研究人员 # AI聊天机器人 # AI语音助手 # 多模态聊天应用

Higgs Audio V2

Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型，基于 1000 万小时语音数据训练，支持多说话人对话、情感语音、多语言语音生成，适合 AI 工具使用者构建语音 Agent 和音频应用。

04510

大模型开源工具与社区 # AI情感语音合成 # AI语音克隆 # 音频生成与理解基础模型

LeVo

LeVo 是由清华、大氪 AI Labs 联合开发的高保真音乐生成框架，支持歌词转歌、声乐与伴奏融合、DPO 多偏好对齐，适用于音乐创作、音频生成领域的 AI 工具用户。

04510

教育与学习最近收录AI # AI作曲辅助 # AI音乐创作 # AI音乐模型

FalcoCut

社交媒体多语言AI视频生成工具。

04460

最近收录AI 计算机视觉 # AI广告助手 # AI社交媒体助手 # AI脚本编写

Voxtral

Voxtral 是由 Mistral 推出的首款开源语音理解模型系列，支持高精度转录、语音问答、多语言识别与函数调用，提供 24B 和 3B 两种参数规模，适合 AI 工具使用者本地部署或云端集成。

04420

大模型开源工具与社区 # AI摘要生成 # AI语音转录 # AI语音问答

CreateWise AI

一款专为播客创作者设计的 Web 端 AI 工具。

04410

最近收录AI 自然语言处理（NLP）# AI播客 # 语音转文字

Puretalk AI®

具备同理心与情感的 AI 对话体验。

04370

最近收录AI 语音识别与生成 # AI聊天机器人 # AI语音代理

HunyuanVideo-Avatar

腾讯混元团队联合腾讯音乐天琴实验室（MuseV）于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。

04340

大模型最近收录AI # AI数字人 # AI短视频生成工具 # AI虚拟主播

SongGeneration

SongGeneration 是腾讯AILab开发的开源歌曲生成模型，基于 LeVo 架构与音乐编码器，可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲，支持中文与英文，适合 AI 工具使用者快速落地音乐创作。

04300

大模型开源工具与社区 # AI音乐生成 # 多语言支持

Dolphin

ByteDance开发的多模态文档图像解析模型，处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。

04220

大模型开源工具与社区 # 多模态处理 # 数据提取

Huxe AI

Huxe AI——一款全新的“个人音频伴侣应用”，由前Google NotebookLM团队打造，支持每日个性化音频简报与实时问答互动。

04200

教育与学习最近收录AI # AI英语听力练习 # AI语音互动 # 个人音频伴侣应用

Chatterbox

Resemble AI 开发并于 2025 年开源发布的高性能文本转语音（TTS）模型。

04200

大模型开源工具与社区 # AI情感陪伴 # AI智能助手 # AI语音克隆

MakeSong

MakeSong 是一款AI歌曲生成器，支持将文本或歌词快速转化为专业级、可商用的 AI 歌曲，适合 AI 工具使用者进行视频背景音乐、社交媒体内容创作与音乐原型制作。

04160

最近收录AI 语音识别与生成 # AI歌曲生成工具 # AI歌曲生成平台 # 文本转歌曲

ThinkSound

ThinkSound 是一款基于 Chain-of-Thought 推理的多模态音频生成与编辑框架，支持任意模态输入（视频、文本、音频），可交互地为视频生成高质 Foley 声音、定向对象声音细化和自然语言音频编辑，适合 AI 工具使用者打造智能多模态内容流程。

04140

最近收录AI 语音识别与生成 # AI音频生成框架 # 多模态音频生成

AI Video Composer

AI Video Composer 是一种利用人工智能技术自...

04130

计算机视觉语音识别与生成 # AI滤镜 # AI特效 # AI视频剪辑工具

闪电说

闪电说是一款端侧优先的 AI 语音输入工具，主打毫秒级语音识别与本地处理，支持 Windows 和 macOS。它通过 AI 优化和即时转写，让语音输入比传统键盘快 4 倍，同时保护用户隐私，适合写作、编程、聊天、会议记录等多种场景。

04110

内容创作语音识别与生成 # AI润色 # AI语音输入法

Eapy

Eapy 是一款由 Pozalabs 开发的 AI 音乐平台，专注于帮助音乐创作者轻松推广作品并提升创作效率。它允许用户上传音乐、图像和文本，生成高质量的在线推广页面，吸引唱片公司、A&R 代表和同步代理的注意。

04070

语音识别与生成 # AI辅助作曲 # AI音乐创作平台 # AI音乐实时协作

小凹语音输入法

“小凹语音输入法” 是由智谱 AI 推出的智能语音转写工具，支持高准确率语音识别、多场景语音输入与自动润色，帮助用户显著提升写作 /输入效率。

04020

最近收录AI 语音识别与生成 # AI润色工具 # AI语音转写 # AI语音输入

字节跳动Seed

Seed LiveInterpret 2.0 是字节跳动 Seed 团队推出的端到端双向中英文语音同传模型，支持零样本声音克隆、超低延迟（约 2–3 秒）实时翻译，适用于 AI 工具使用者与跨语言交流场景。

03940

最近收录AI 语音识别与生成 # AI声音克隆 # AI翻译

Blobfish AI

通过高度拟人的语音代理，实现大规模自动化拨号、销售线索筛选与呼叫中心角色扮演训练。

03890

最近收录AI 语音识别与生成 # AI呼叫中心培训 # AI智能外呼

MOSS‑TTSD

MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型，通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成，适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。

03850

大模型最近收录AI # AI客服 # AI播客 # AI语音生成框架

Vui

Vui——一款轻量级、轻量级语音对话模型（Lightweight Voice Dialogue Model），具备上下文感知与声纹克隆能力的开源 on‑device 模型。

03800

开源工具与社区最近收录AI # AI个人助理 # AI声音克隆 # AI多角色对话

PlayDiffusion

Play AI 公司推出的开源音频编辑模型，基于先进的扩散模型（diffusion model）构建，专注于提供高效的音频精细编辑与修复功能。

03770

大模型开源工具与社区 # AI配音 # AI音频编辑模型 # 播客制作

11.ai

11ai，即 ElevenLabs，由 Piotr Dąbkowski 和 Mati Staniszewski 于 2022 年创办，总部位于纽约，专注于开发高质量语音合成与克隆技术。

03700

API与SDK 最近收录AI # AI播客制作 # AI有声书 # AI语音克隆

Lami AI Music Generator

一款创新的人工智能音乐创作平台，旨在帮助用户通过自然语言描述快速生成原创音乐作品。

03680

最近收录AI 语音识别与生成 # AI音乐创作平台 # 文本生成音乐

Voxiyo

深入解析 Voxiyo：一款面向 AI 工具使用者的智能语音记录与摘要 App，涵盖核心功能、使用流程、技术解析、实用场景与常见问答，帮助你高效管理语音笔记。

03640

教育与学习最近收录AI # AI总结 # AI提取任务清单 # AI语音笔记

Leoline

一款针对儿童的 AI 语音故事助手，纯语音交互，无须屏幕或打字。

03640

最近收录AI 语音识别与生成 # AI语音交互 # AI语音故事助手 # AI长文本故事生成

AI-Media2Doc

一款开源的 AI 图文创作助手，能够将音频和视频内容一键转换为多种风格的文档，如小红书笔记、微信公众号文章、知识笔记、思维导图等。

03580

开源工具与社区最近收录AI # Ai图文创作助手

ListenHub

将任何网页内容快速转化为超现实的AI生成播客，多语言支持包括中文。

03530

娱乐媒体教育与学习 # AI网页转播客 # AI语音技术

Eleven v3

由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音（TTS）模型的 Alpha 版本。

03470

大模型最近收录AI # AI多角色对话 # AI广告配音 # AI情感表达

PreenCut

PreenCut 是一款开源 AI 视频检索与剪辑工具，支持语音识别（WhisperX）、LLM 分析、自然语言查询与批量处理，为 AI 工具使用者提供高效精准的视频片段检索和剪辑能力。

03370

开源工具与社区数据分析与预测 # AI段落标注 # AI视频剪辑工具 # AI视频检索工具

Fish Audio

一款先进的在线 AI 语音合成与声音克隆平台，支持多语言文本转语音（TTS）和个性化声音定制。

03200

API与SDK 最近收录AI # AI声音克隆 # AI情感表达 # AI游戏开发

Aimi Sync

可在短时间内根据视频内容自动生成完整版权清晰的原创音轨，并通过逐帧分析实现多层音频的精准同步。

03070

最近收录AI 语音识别与生成 # AI生成音轨 # AI音乐生成器 # AI音乐视频生成器

Convoso

为企业提供云端基础的联系中心软件解决方案。

03050

最近收录AI 自然语言处理（NLP）# AI工作流程管理 # AI拨号器 # AI聊天机器人

OmniAudio

阿里巴巴通义实验室开发的空间音频生成模型，能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。

03040

大模型娱乐媒体 # AI增强现实 # AI虚拟现实 # AI音频内容创作

AiMakeSong

一款基于人工智能的在线音乐生成平台，旨在帮助用户通过简单的文本输入或歌词创作，快速生成高质量的原创歌曲。

03030

娱乐媒体最近收录AI # AI在线音乐生成平台 # AI歌词生成工具 # 文本转歌曲

GLM-TTS

GLM-TTS 是一款由 Zhipu AI 开源的工业级文本转语音（TTS）系统，支持零样本音色克隆、情感表达控制与流式生成。它采用双阶段架构与多奖励强化学习，可实现高质量自然语音合成，适用于语音助手、有声读物、客服、教育等多种场景。

03020

内容创作开源工具与社区 # AI有声读物 # AI语音克隆 # 文本转语音（TTS）

MiniWork

MiniWork 是一站式 AI 工具平台，集成写作助手、图像编辑、PDF 转换、营销分析、SEO 优化等多功能，支持 GPT‑4o、Claude 3.7、Gemini 2.5 等多种模型，适用于内容创作者、运营人员和职场精英，提升工作效率。

03010

写作助手最近收录AI # AI图像生成 # AI图像编辑 # AI工具平台

Vocloner

一款完全免费的在线 AI 语音克隆工具，能够在几秒钟内通过上传音频样本来即时生成语音克隆模型，支持多语言和情感语调选择。

02930

教育与学习最近收录AI # AI语音克隆工具 # 多语言支持

Avido.ai

Avido.ai 是一款面向内容创作者的 AI视频工具生成工具，支持从脚本、图像到配音自动生成高质量视听内容，并能自动上传 YouTube 和 TikTok，实现内容自动化创作和发布。

02790

免费AI工具最近收录AI # AI 视频创作平台 # AI视频生成工具 # AI视频脚本撰写

Echovox Studio

Echovox Studio 是一款 AI 驱动的全流程音频创作平台，涵盖脚本构思、AI 配音、声音克隆与高级音频编辑，适合播客、视频配音者与内容创作者，高效生成专业音频内容。

02730

最近收录AI 语音识别与生成 # AI文本转语音 # AI脚本助手 # AI语音克隆

TEN VAD

一款面向企业级应用的实时语音活动检测系统，能够提供精准的帧级语音活动检测。

02690

最近收录AI 语音识别与生成 # AI会议记录 # AI客服系统 # AI语音助手

OpenAudio

Fish Audio 推出的新一代文本转语音（TTS）模型，旨在生成高度自然、富有情感的语音输出。

02680

大模型娱乐媒体 # AI播客能容创作 # AI有声书内容创作 # AI游戏角色语音

PodGen.io

一款由 AI 驱动的播客生成平台，可以将文章、PDF、网站、YouTube 视频、文本和脚本等内容，快速转换为专业级音频播客。

02640

教育与学习最近收录AI # AI播客生成平台 # AI配音 # 多语言处理

Mozart AI

Mozart AI 是首个AI 驱动的数字音频工作站（DAW），通过自然语言或语音交互生成和编辑音乐元素，提供协助式创作流程，适合 AI 工具使用者和音乐创作者快速落地灵感。

02620

最近收录AI 语音识别与生成 # AI 数字音频工作站 # AI协作式创作

Qwen3-Omni-Flash

Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态（omni-modal）大模型，支持文本、图像、音频和视频等多种输入，并能实时流式输出文本与自然语音，具备高效多模态理解与交互能力，覆盖 119 种文本语言及多语言语音交互，实现真正无缝实时 AI 体验。

02520

内容创作大模型 # AI语音助手 # 多语言语音输出

讯飞输入法

讯飞输入法是由科大讯飞出品的一款多模式智能中文输入法，支持语音、拼音、手写、拍照 OCR、方言识别等多种输入方式，并可高度自定义键盘皮肤与输入体验，适合日常聊天、办公、学习与跨语言沟通用户。

02140

内容创作最近收录AI # AI输入法

VoiceSculptor

VoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成（Instruct TTS）系统，基于 LLaSA 与 CosyVoice2 支持自然语言描述控制音色、语速、音调、情感等属性，并可用于声音设计与语音合成任务。

02040

开源工具与社区最近收录AI # AI语音克隆

Gemini TTS

Gemini TTS 是 Google 最新的文本转语音（Text-to-Speech）技术，通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制，并可用于播客、课程、辅助工具与互动应用等场景。

01980

API与SDK 内容创作 # AI语音合成 # 多语言支持 # 文本转语音

Spokenly

Spokenly 是一款适用于 macOS / iOS 的智能语音听写与语音-驱动输入工具，支持 100+ 语言、离线转写与云服务、实时语音转文字、AI 文本润色、语音命令控制，适合写作、会议记录、聊天、编程、文档编辑等各种文本输入场景。

01960

最近收录AI 语音识别与生成 # AI语音转文字

AI大学堂