语音识别与生成

共 105 篇网址

探索前沿的语音识别与生成 AI 工具，涵盖自动语音识别（ASR）、文本转语音（TTS）、语音合成、语音翻译等核心技术。AI工具导航平台汇聚国内外优质的语音 AI 应用与开源项目，助力开发者、企业和研究者高效构建智能语音系统。无论是智能客服、语音助手、无障碍辅助，还是多语言翻译与内容创作，这里都能找到适合的语音识别与生成 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

NeverCap

一款提供“真正无限”AI 音频与视频转录服务的平台。

01930

教育者与研究人员最近收录AI # AI视频转录 # AI音频转录

SAM Audio

Meta 推出的统一多模态音频分离 AI 模型。

01910

大模型最近收录AI # AI音频处理 # 多模态音频分离模型

StepAudio R1

StepAudio R1 是首个真正能对音频进行“Chain-of-Thought（CoT）推理 / 深度分析”的开源音频语言模型，支持对说话、音乐、环境音进行理解、推理与分析，适合开发者、研究者、内容创作者用于音频理解、分析、检索与多模态工具构建。

01850

开源工具与社区最近收录AI

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别（ASR）模型，支持单次处理最长约 60 分钟连续音频，并输出包含说话者标识、时间戳与转录文本的结构化结果，适用于会议、讲座、播客等长音频语音识别场景。

01500

最近收录AI 语音识别与生成 # 时间戳 # 热词识别 # 结构化转录

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力，并提供开源权重与企业部署选项。

01370

大模型开源工具与社区 # 多语言支持 # 实时转录 # 语音转写

AI大学堂