语音识别与生成

共 105 篇网址

探索前沿的语音识别与生成 AI 工具，涵盖自动语音识别（ASR）、文本转语音（TTS）、语音合成、语音翻译等核心技术。AI工具导航平台汇聚国内外优质的语音 AI 应用与开源项目，助力开发者、企业和研究者高效构建智能语音系统。无论是智能客服、语音助手、无障碍辅助，还是多语言翻译与内容创作，这里都能找到适合的语音识别与生成 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

今天学点啥

AI“塔子老师”自动拆解、生成幻灯片并配以生动讲解，同时配备互动测验与扩展阅读模块，兼顾趣味性与深度。

02,6370

教育与学习最近收录AI # AI SVG动画 # AI 个性化讲解 # AI 动态PPT

Saylo

预设50万AI角色，进行多模态对话，通过文字、语音和图像等形式共同创作专属剧情。

02,0360

语音识别与生成 # AI写作助手 # AI虚拟现实 # AI角色扮演

AI Fooler

一款专业的 AI 音频处理工具，以免费使用、一键人声分离和伴奏提取闻名，支持多格式上传，适合音乐爱好者、内容创作者和音频剪辑者使用，在线体验无门槛，更高效地处理音频素材。

01,2290

最近收录AI 语音识别与生成 # AI伴奏提取 # AI音频处理 # stem分离工具

AskManyAI

一款集成了全球顶尖AI模型的多功能协作平台，旨在通过多模型协同机制提升用户的工作效率与决策准确性。

01,2110

教育者与研究人员最近收录AI # AI Agent # AI多功能协作平台

Medeo

AI在线视频创作与编辑平台。

09241

最近收录AI 计算机视觉 # AI内容创作 # AI动画故事 # AI视频剪辑

Traini

过生成式人工智能技术，提升人宠之间的情感交流和行为理解。

08500

最近收录AI 自然语言处理（NLP）# AI 狗语翻译器 # PetGPT # PetGPT 智能助手

Fish Audio

一个领先的 AI 生成式文本转语音（TTS）和语音克隆平台，基于开源的 Fish Speech 模型。

08020

最近收录AI 语音识别与生成 # AI语音克隆平台 # AI语音库 # Fish Speech 模型

阶跃AI

融合网页搜索与知识库，支持文本、图像、文档、语音多种输入方式，提供实时对话、多轮交互、图文理解、文档问答及创作辅助等功能，旨在提升个人在工作、学习与生活中的效率与创造力。

07650

自然语言处理（NLP）计算机视觉 # AI个人效率助手 # AI代码助手 # AI写作

Otter.ai

通过人工智能和机器学习技术提供语音转录和会议生产力工具，帮助用户简化会议流程并提升协作效率。

06910

自主智能系统语音识别与生成 # AI会议Agent # AI摘要提取 # AI笔记助手

TurboScribe

AI转录工具，专注于将音频和视频文件快速、准确地转换为文本。

06830

商业产品与订阅服务语音识别与生成 # AI产品描述生成器 # AI语音识别 # AI转录工具

DeepPiano

DeepPiano 是由 DeepWav 开发的 AI 钢琴学习平台，提供智能曲谱、AI 翻页、音频增强、性能辅导与自动编谱，旨在帮助 AI 工具使用者和钢琴爱好者提升演奏与创作能力。

06740

教育与学习最近收录AI # AI 钢琴辅助平台 # AI编谱 # AI音频增强

智启特AI

武汉智启特人工智能科技有限公司旗下的一站式 AIGC（人工智能生成内容）行业解决方案平台。

06640

娱乐媒体最近收录AI # AI图像生成工具 # AI视频生成工具 # AI角色建模

智声云配

智声云配（DubbingX）是一款由智声悦合（杭州）科技推出的 AI 配音与音色克隆平台，支持多语言、多情绪、歌声转换及 API 集成，适用于有声书、游戏、广告、虚拟人等场景，为 AI 用户提供高拟真可商用配音解决方案。

06620

最近收录AI 语音识别与生成 # AI智能配音工具 # AI有声书制作 # AI语音转换

Suno

Suno, Inc.开发的AI音乐创作平台

06150

商业产品与订阅服务精选AI # AI文本生成音频 # AI音乐创作平台 # 多样化音乐风格

AI PPT Maker

AI PPT Maker 为需要快速制作专业演示文稿的用户提供了一个高效、易用的解决方案。

06140

AI热门产品办公提效 # AI PDF # AI内容生成器 # AI图表生成器

DeepInfra

DeepInfra 通过提供无缝、可扩展且经济高效的 AI 推理解决方案，正在改变 AI 景观。其专注于简单性、性能和负担能力，使其成为初创企业和企业的重要选择。

06080

大模型最近收录AI # AI语音合成 # AI语音识别 # 大语言模型（LLMS）

BytePlus

BytePlus是字节跳动旗下 AI 平台，为开发者和企业提供图像生成、语音识别、推荐系统、增强现实等一站式 AI 能力，适合 AI 工具使用者构建复杂智能应用。

05980

API与SDK 企业用户 # AI图像生成 # AI视觉增强 # 全栈AI服务

Descript

自动化转录、AI 助手、多机位切换等功能融入到同一界面，让创作者在文档式界面中轻松完成剪辑、字幕、配乐和特效处理。

05890

最近收录AI 计算机视觉 # AI GIF生成工具 # AI助手 # AI头像生成工具

Qwen‑TTS

Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型，支持标准普通话、三种中文方言（北京话、上海话、四川话）及七种中英双语音色，通过流式输出实现快速、高质量语音生成。

05830

大模型最近收录AI # AI客服 # AI语音助手 # 文本转语音模型

Pi（Presentation Intelligence）

Pi（Presentation Intelligence）

一款结合人工智能技术的演示内容分析和优化平台，专注于提升演讲者的表达表现、幻灯片内容质量以及听众互动效果。

05710

最近收录AI 计算机视觉 # AI 视频演示生成工具 # AI内容分析 # AI分析演讲

Mureka

Mureka是一款先进的人工智能音乐生成平台，旨在帮助用户将歌词和提示转化为完整制作的歌曲，且生成的音乐均为无限制且免版税。

05640

最近收录AI 语音识别与生成 # AI音乐生成器

AudioX

将任意文字、图像、视频及已有音频输入转化为专业级音乐、音效和配音。

05600

最近收录AI 语音识别与生成 # AI语音合成 # AI音乐增强工具 # AI音乐生成工具

Mobvoi MCP Server

出门问问（Mobvoi）于 2025 年 5 月 29 日正式发布的一款多模态 AI 服务平台。

05550

开源工具与社区最近收录AI # AI声音克隆 # AI数字人 # AI视频翻译

Noiz AI

语音克隆与合成功能

05470

最近收录AI 语音识别与生成 # AI语音克隆 # AI语音合成 # 个性化配音

Unmute

法国 AI 实验室 Kyutai 推出的一款高度模块化的语音 AI 系统，旨在为文本大语言模型（LLM）赋予实时语音交互能力。

05270

最近收录AI 语音识别与生成 # AI客服 # AI语音交互 # AI语音助手

CoGenAV

一种多模态语音表征模型，旨在通过对比-生成同步策略，学习音频与视觉之间的深层次关联。

05210

教育与学习最近收录AI # AI视频会议转录 # AI语音助手 # 多模态语音表征模型

咔皮记账

咔皮记账是商汤科技推出的 AI 原生记账与财务管理工具，具备自动语音记账、AI 财务分析、多账本支持、智能预算与情感手账等功能，上线半年即突破百万用户，深受年轻群体喜爱。

05190

最近收录AI 语音识别与生成 # AI财务分析 # AI财务助手

MiniMax

一家中国领先的人工智能公司及其核心产品与技术生态，涵盖公司背景、主要产品（包括文本到视频、图像生成、语音合成等）、技术架构、典型应用场景与商业模式。

05190

大模型最近收录AI # AI Agent # AI聊天机器人 # AI艺术生成器

iRocket iCreaVoice

通过实时语音转换技术为用户带来前所未有的互动体验。

05120

最近收录AI 语音识别与生成 # AI语音克隆 # AI语音滤镜 # AI语音转换工具

Amazon Nova Sonic

亚马逊推出的创新AI语音模型。

05120

API与SDK 医疗与健康 # AI语气识别 # AI语音基础模型 # 多行业应用

Joi AI

用户提供个性化、情感丰富的互动体验。

05100

语音识别与生成 # AI聊天机器人 # AI虚拟伴侣 # AI虚拟女友

聆音EchoCare

聆音EchoCare是一款融合人工智能、声音识别与健康管理技术的智能照护平台，专注于老年人、慢性病患者与居家照护场景。

05040

医疗与健康最近收录AI # AI健康检测 # AI呼吸检测 # AI声音鉴别

AI Music Generator

基于先进深度学习模型的在线 AI 音乐生成平台。

05030

最近收录AI 深度学习（DL）# AI文本转曲 # AI歌词生成工具 # AI音乐生成工具

MoonCast

一款先进的零样本 AI 播客生成工具，能够直接从纯文本输入中生成自然流畅的播客语音内容。

05010

娱乐媒体教育与学习 # AI 播客生成工具

National Gallery Mixtape

National Gallery Mixtape

Google Arts & Culture 与英国国家美术馆（The National Gallery）合作推出的一款互动式 AI 实验项目。

04990

最近收录AI 计算机视觉 # AI创意启发 # AI艺术教育 # AI音乐生成工具

面试猫

一款基于人工智能技术的智能面试助手，旨在为求职者提供全方位的面试支持。

04960

最近收录AI 机器学习（ML）# ai面试 # AI面试助手 # 多语言面试

免费语音克隆

一款基于浏览器的 AI 语音克隆工具。

04930

最近收录AI 语音识别与生成 # AI语音克隆工具 # 文本转语音 # 语音转文本

Ming-lite-omni

蚂蚁集团于 2025 年 5 月开源发布的统一多模态大模型，旨在实现文本、图像、音频和视频等多种模态的理解与生成能力。

04900

医疗与健康教育与学习 # AI内容创作 # AI医学影像分析 # AI客服

米壳AI

企业级 AI 视频与图像翻译编辑平台。

04890

最近收录AI 计算机视觉 # AI图像翻译 # AI声音克隆 # AI视频翻译

音刻（Inkr）

一款专注于高效、多语言、本地化 AI 语音转录与智能笔记工具。

04880

最近收录AI 语音识别与生成 # AI语音转换 # 语音转录 # 语音转文本

Raycast AI

一款为Mac用户设计的高效智能生产力工具。

04850

最近收录AI 自然语言处理（NLP）# AI内容生成工具 # AI搜索 # AI语音操控

Reecho睿声

一款领先的AI语音平台，专注于超拟真语音合成和瞬时语音克隆技术。

04820

最近收录AI 语音识别与生成 # AI语音克隆 # AI语音助手 # AI语音平台

Udio

Udio 是由前Google DeepMind团队研发的AI音乐生成平台，凭借其强大的文本到音乐的转换能力与开源生态，迅速成为全球音乐创作者的热门工具。用户仅需输入简单的文本描述，即可生成包含人声的高质量音乐作品，覆盖流行、电子、摇滚、古典等数十种风格，并支持多语言歌词创作。

04810

最近收录AI 语音识别与生成 # AI音乐生成器 # Remix混音 # 文本生成音乐

千音漫语

探索“千音漫语”智能声音创作平台：从配音、翻译、声音克隆到语音识别，揭开其架构与应用秘密，助力 AI 用户构建高效多语种音视频创作流程。

04760

最近收录AI 语音识别与生成 # AI声音克隆 # AI声音创作平台 # AI有声书制作

Amie

AI生产力工具，可以整合会议记录、CRM更新、任务规划和日程安排。

04720

产品经理与业务分析师数据分析与预测 # AI CRM更新 # AI任务规划 # AI会议记录整合

Twocast

Twocast 是一款 AI 驱动的双人播客生成平台，支持从文章、网址或文档快速生成 3–9 分钟的 AI 对话播客，拥有多语言、多音色支持及下载功能，是内容创作者、教育者与营销人员的高效音频工具。

04690

教育与学习最近收录AI # AI Podcast Generator # AI内容创作 # AI双人播客

EVI 3

一款基于共情大语言模型（eLLM）技术的语音语言模型，能够同时处理文本和语音输入，生成自然、富有表现力的语音响应。

04660

医疗与健康大模型 # AI 语音交互体验 # 共情大语言模型（eLLM）# 语音语言模型

ElevenLabs

这是一家专注于AI语音合成技术的初创公司，可以创建不同语言、口音和情感的合成语音。

04600

语音识别与生成音频合成 # AI语音合成 # AI语音生成器

Mureka V7

Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型，基于 MusiCoT Chain‑of‑Musical‑Thought 技术，实现结构化、真实感极强的旋律和人声效果，适合 AI 工具使用者快速制作高质量原创音乐。

04570

大模型最近收录AI # AI音乐创作工具 # AI音乐模型

提客AI提词器

一款基于人工智能技术的智能提词软件，旨在为内容创作者、主播、演讲者等提供高效、便捷的提词服务。

04570

最近收录AI 机器学习（ML）# AI提词器 # AI提词工具 # AI语音识别

AI大学堂