AI工具导航
AI工具导航站长导航教师导航服装业导航自媒体导航娱乐业导航
  • AI工具应用集
  • AI博客文章
  • 账号购买
    • 账号合租
  • AI投稿
  • AI排行榜
  • 提示词商城
      • 未登录
        登录后即可体验更多功能
    • AI工具应用集
    • AI博客文章
    • 账号购买
      • 账号合租
    • AI投稿
    • AI排行榜
    • 提示词商城
    未登录
    登录后即可体验更多功能

    语音识别与生成

    共 104 篇网址
    探索前沿的语音识别与生成 AI 工具,涵盖自动语音识别(ASR)、文本转语音(TTS)、语音合成、语音翻译等核心技术。AI工具导航平台汇聚国内外优质的语音 AI 应用与开源项目,助力开发者、企业和研究者高效构建智能语音系统。无论是智能客服、语音助手、无障碍辅助,还是多语言翻译与内容创作,这里都能找到适合的语音识别与生成 AI 解决方案。
    AI商业AI常用工具AI教育AI服装设计AI热门产品AI生活助理SEO优化与推广SEO工具交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 APIAI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI精选AI集成开发环境(IDE)免费AI工具
    自然语言处理(NLP)计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统
    排序
    发布更新浏览点赞
    VibeVoice-ASR

    VibeVoice-ASR

    VibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。
    090
    最近收录AI语音识别与生成# 时间戳# 热词识别# 结构化转录
    VoiceSculptor

    VoiceSculptor

    VoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成(Instruct TTS)系统,基于 LLaSA 与 CosyVoice2 支持自然语言描述控制音色、语速、音调、情感等属性,并可用于声音设计与语音合成任务。
    0420
    开源工具与社区最近收录AI# AI语音克隆
    NeverCap

    NeverCap

    一款提供“真正 无限”AI 音频与视频转录服务的平台。
    0610
    教育者与研究人员最近收录AI# AI视频转录# AI音频转录
    SAM Audio

    SAM Audio

    Meta 推出的统一多模态音频分离 AI 模型。
    0640
    大模型最近收录AI# AI音频处理# 多模态音频分离模型
    Gemini TTS

    Gemini TTS

    Gemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。
    0620
    API与SDK内容创作# AI语音合成# 多语言支持# 文本转语音
    Qwen3-Omni-Flash

    Qwen3-Omni-Flash

    Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。
    0860
    内容创作大模型# AI语音助手# 多语言语音输出
    GLM-TTS

    GLM-TTS

    GLM-TTS 是一款由 Zhipu AI 开源的工业级 文本转语音(TTS) 系统,支持零样本音色克隆、情感表达控制与流式生成。它采用双阶段架构与多奖励强化学习,可实现高质量自然语音合成,适用于语音助手、有声读物、客服、教育等多种场景。
    01440
    内容创作开源工具与社区# AI有声读物# AI语音克隆# 文本转语音(TTS)
    Spokenly

    Spokenly

    Spokenly 是一款适用于 macOS / iOS 的智能语音听写与语音-驱动输入工具,支持 100+ 语言、离线转写与云服务、实时语音转文字、AI 文本润色、语音命令控制,适合写作、会议记录、聊天、编程、文档编辑等各种文本输入场景。
    0860
    最近收录AI语音识别与生成# AI语音转文字
    StepAudio R1

    StepAudio R1

    StepAudio R1 是首个真正能对音频进行“Chain-of-Thought(CoT)推理 / 深度分析”的开源音频语言模型,支持对说话、音乐、环境音进行理解、推理与分析,适合开发者、研究者、内容创作者用于音频理解、分析、检索与多模态工具构建。
    0830
    开源工具与社区最近收录AI
    闪电说

    闪电说

    闪电说是一款端侧优先的 AI 语音输入工具,主打毫秒级语音识别与本地处理,支持 Windows 和 macOS。它通过 AI 优化和即时转写,让语音输入比传统键盘快 4 倍,同时保护用户隐私,适合写作、编程、聊天、会议记录等多种场景。
    01560
    内容创作语音识别与生成# AI润色# AI语音输入法
    讯飞输入法

    讯飞输入法

    讯飞输入法是由 科大讯飞 出品的一款多模式智能中文输入法,支持语音、拼音、手写、拍照 OCR、方言识别等多种输入方式,并可高度自定义键盘皮肤与输入体验,适合日常聊天、办公、学习与跨语言沟通用户。
    0730
    内容创作最近收录AI# AI输入法
    小凹语音输入法

    小凹语音输入法

    “小凹语音输入法” 是由 智谱 AI 推出的智能语音转写工具,支持高准确率语音识别、多场景语音输入与自动润色,帮助用户显著提升写作 /输入效率。
    02330
    最近收录AI语音识别与生成# AI润色工具# AI语音转写# AI语音输入
    聆音EchoCare

    聆音EchoCare

    聆音EchoCare是一款融合人工智能、声音识别与健康管理技术的智能照护平台,专注于老年人、慢性病患者与居家照护场景。
    03280
    医疗与健康最近收录AI# AI健康检测# AI呼吸检测# AI声音鉴别
    Higgs Audio V2

    Higgs Audio V2

    Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。
    03620
    大模型开源工具与社区# AI情感语音合成# AI语音克隆# 音频生成与理解基础模型
    字节跳动Seed

    字节跳动Seed

    Seed LiveInterpret 2.0 是字节跳动 Seed 团队推出的端到端双向中英文语音同传模型,支持零样本声音克隆、超低延迟(约 2–3 秒)实时翻译,适用于 AI 工具使用者与跨语言交流场景。
    02740
    最近收录AI语音识别与生成# AI声音克隆# AI翻译
    Mureka V7

    Mureka V7

    Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型,基于 MusiCoT Chain‑of‑Musical‑Thought 技术,实现结构化、真实感极强的旋律和人声效果,适合 AI 工具使用者快速制作高质量原创音乐。
    03240
    大模型最近收录AI# AI音乐创作工具# AI音乐模型
    Mozart AI

    Mozart AI

    Mozart AI 是首个AI 驱动的数字音频工作站(DAW),通过自然语言或语音交互生成和编辑音乐元素,提供协助式创作流程,适合 AI 工具使用者和音乐创作者快速落地灵感。
    01710
    最近收录AI语音识别与生成# AI 数字音频工作站# AI协作式创作
    BytePlus

    BytePlus

    BytePlus是字节跳动旗下 AI 平台,为开发者和企业提供图像生成、语音识别、推荐系统、增强现实等一站式 AI 能力,适合 AI 工具使用者构建复杂智能应用。
    03890
    API与SDK企业用户# AI图像生成# AI视觉增强# 全栈AI服务
    MakeSong

    MakeSong

    MakeSong 是一款AI歌曲生成器,支持将文本或歌词快速转化为专业级、可商用的 AI 歌曲,适合 AI 工具使用者进行视频背景音乐、社交媒体内容创作与音乐原型制作。
    02770
    最近收录AI语音识别与生成# AI歌曲生成工具# AI歌曲生成平台# 文本转歌曲
    Voxtral

    Voxtral

    Voxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。
    03290
    大模型开源工具与社区# AI摘要生成# AI语音转录# AI语音问答
    千音漫语

    千音漫语

    探索“千音漫语”智能声音创作平台:从配音、翻译、声音克隆到语音识别,揭开其架构与应用秘密,助力 AI 用户构建高效多语种音视频创作流程。
    03390
    最近收录AI语音识别与生成# AI声音克隆# AI声音创作平台# AI有声书制作
    MOSS‑TTSD

    MOSS‑TTSD

    MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。
    02780
    大模型最近收录AI# AI客服# AI播客# AI语音生成框架
    ThinkSound

    ThinkSound

    ThinkSound 是一款基于 Chain-of-Thought 推理的多模态音频生成与编辑框架,支持任意模态输入(视频、文本、音频),可交互地为视频生成高质 Foley 声音、定向对象声音细化和自然语言音频编辑,适合 AI 工具使用者打造智能多模态内容流程。
    02930
    最近收录AI语音识别与生成# AI音频生成框架# 多模态音频生成
    Qwen‑TTS

    Qwen‑TTS

    Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型,支持标准普通话、三种中文方言(北京话、上海话、四川话)及七种中英双语音色,通过流式输出实现快速、高质量语音生成。
    03960
    大模型最近收录AI# AI客服# AI语音助手# 文本转语音模型
    Voxiyo

    Voxiyo

    深入解析 Voxiyo:一款面向 AI 工具使用者的智能语音记录与摘要 App,涵盖核心功能、使用流程、技术解析、实用场景与常见问答,帮助你高效管理语音笔记。
    02700
    教育与学习最近收录AI# AI总结# AI提取任务清单# AI语音笔记
    智声云配

    智声云配

    智声云配(DubbingX)是一款由智声悦合(杭州)科技推出的 AI 配音与音色克隆平台,支持多语言、多情绪、歌声转换及 API 集成,适用于有声书、游戏、广告、虚拟人等场景,为 AI 用户提供高拟真可商用配音解决方案。
    04810
    最近收录AI语音识别与生成# AI智能配音工具# AI有声书制作# AI语音转换
    Twocast

    Twocast

    Twocast 是一款 AI 驱动的双人播客生成平台,支持从文章、网址或文档快速生成 3–9 分钟的 AI 对话播客,拥有多语言、多音色支持及下载功能,是内容创作者、教育者与营销人员的高效音频工具。
    03450
    教育与学习最近收录AI# AI Podcast Generator# AI内容创作# AI双人播客
    咔皮记账

    咔皮记账

    咔皮记账是商汤科技推出的 AI 原生记账与财务管理工具,具备自动语音记账、AI 财务分析、多账本支持、智能预算与情感手账等功能,上线半年即突破百万用户,深受年轻群体喜爱。
    03850
    最近收录AI语音识别与生成# AI财务分析# AI财务助手
    MiniWork

    MiniWork

    MiniWork 是一站式 AI 工具平台,集成写作助手、图像编辑、PDF 转换、营销分析、SEO 优化等多功能,支持 GPT‑4o、Claude 3.7、Gemini 2.5 等多种模型,适用于内容创作者、运营人员和职场精英,提升工作效率。
    01770
    写作助手最近收录AI# AI图像生成# AI图像编辑# AI工具平台
    11.ai

    11.ai

    11ai,即 ElevenLabs,由 Piotr Dąbkowski 和 Mati Staniszewski 于 2022 年创办,总部位于纽约,专注于开发高质量语音合成与克隆技术。
    02740
    API与SDK最近收录AI# AI播客制作# AI有声书# AI语音克隆
    PreenCut

    PreenCut

    PreenCut 是一款开源 AI 视频检索与剪辑工具,支持语音识别(WhisperX)、LLM 分析、自然语言查询与批量处理,为 AI 工具使用者提供高效精准的视频片段检索和剪辑能力。
    02410
    开源工具与社区数据分析与预测# AI段落标注# AI视频剪辑工具# AI视频检索工具
    DeepPiano

    DeepPiano

    DeepPiano 是由 DeepWav 开发的 AI 钢琴学习平台,提供智能曲谱、AI 翻页、音频增强、性能辅导与自动编谱,旨在帮助 AI 工具使用者和钢琴爱好者提升演奏与创作能力。
    03090
    教育与学习最近收录AI# AI 钢琴辅助平台# AI编谱# AI音频增强
    Stream‑Omni

    Stream‑Omni

    Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合(文本、图像、语音)并生成文本和语音回应,具备边听边列文字中转、轻量训练与同声互动能力,是 AI 工具使用者构建多模态界面的优秀起点。
    03190
    开源工具与社区教育者与研究人员# AI聊天机器人# AI语音助手# 多模态聊天应用
    Echovox Studio

    Echovox Studio

    Echovox Studio 是一款 AI 驱动的全流程音频创作平台,涵盖脚本构思、AI 配音、声音克隆与高级音频编辑,适合播客、视频配音者与内容创作者,高效生成专业音频内容。
    01560
    最近收录AI语音识别与生成# AI文本转语音# AI脚本助手# AI语音克隆
    SongGeneration

    SongGeneration

    SongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲,支持中文与英文,适合 AI 工具使用者快速落地音乐创作。
    03000
    大模型开源工具与社区# AI音乐生成# 多语言支持
    LeVo

    LeVo

    LeVo 是由清华、大氪 AI Labs 联合开发的高保真音乐生成框架,支持歌词转歌、声乐与伴奏融合、DPO 多偏好对齐,适用于音乐创作、音频生成领域的 AI 工具用户。
    03300
    教育与学习最近收录AI# AI作曲辅助# AI音乐创作# AI音乐模型
    Avido.ai

    Avido.ai

    Avido.ai 是一款面向内容创作者的 AI视频工具生成工具,支持从脚本、图像到配音自动生成高质量视听内容,并能自动上传 YouTube 和 TikTok,实现内容自动化创作和发布。
    01880
    免费AI工具最近收录AI# AI 视频创作平台# AI视频生成工具# AI视频脚本撰写
    AI Fooler

    AI Fooler

    一款专业的 AI 音频处理工具,以免费使用、一键人声分离和伴奏提取闻名,支持多格式上传,适合音乐爱好者、内容创作者和音频剪辑者使用,在线体验无门槛,更高效地处理音频素材。
    09100
    最近收录AI语音识别与生成# AI伴奏提取# AI音频处理# stem分离工具
    Vui

    Vui

    Vui——一款轻量级、轻量级语音对话模型(Lightweight Voice Dialogue Model),具备上下文感知与声纹克隆能力的开源 on‑device 模型。
    02730
    开源工具与社区最近收录AI# AI个人助理# AI声音克隆# AI多角色对话
    Huxe AI

    Huxe AI

    Huxe AI——一款全新的“个人音频伴侣应用”,由前Google NotebookLM团队打造,支持每日个性化音频简报与实时问答互动。
    02970
    教育与学习最近收录AI# AI英语听力练习# AI语音互动# 个人音频伴侣应用
    Vocloner

    Vocloner

    一款完全免费的在线 AI 语音克隆工具,能够在几秒钟内通过上传音频样本来即时生成语音克隆模型,支持多语言和情感语调选择。
    01930
    教育与学习最近收录AI# AI语音克隆工具# 多语言支持
    Leoline

    Leoline

    一款针对儿童的 AI 语音故事助手,纯语音交互,无须屏幕或打字。
    02820
    最近收录AI语音识别与生成# AI语音交互# AI语音故事助手# AI长文本故事生成
    PodGen.io

    PodGen.io

    一款由 AI 驱动的播客生成平台,可以将文章、PDF、网站、YouTube 视频、文本和脚本等内容,快速转换为专业级音频播客。
    01710
    教育与学习最近收录AI# AI播客生成平台# AI配音# 多语言处理
    Eleven v3

    Eleven v3

    由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音(TTS)模型的 Alpha 版本。
    02390
    大模型最近收录AI# AI多角色对话# AI广告配音# AI情感表达
    National Gallery Mixtape

    National Gallery Mixtape

    Google Arts & Culture 与英国国家美术馆(The National Gallery)合作推出的一款互动式 AI 实验项目。
    03730
    最近收录AI计算机视觉# AI创意启发# AI艺术教育# AI音乐生成工具
    面试猫

    面试猫

    一款基于人工智能技术的智能面试助手,旨在为求职者提供全方位的面试支持。
    03230
    最近收录AI机器学习(ML)# ai面试# AI面试助手# 多语言面试
    提客AI提词器

    提客AI提词器

    一款基于人工智能技术的智能提词软件,旨在为内容创作者、主播、演讲者等提供高效、便捷的提词服务。
    03010
    最近收录AI机器学习(ML)# AI提词器# AI提词工具# AI语音识别
    MoonCast

    MoonCast

    一款先进的零样本 AI 播客生成工具,能够直接从纯文本输入中生成自然流畅的播客语音内容。
    03880
    娱乐媒体教育与学习# AI 播客生成工具
    OpenAudio

    OpenAudio

    Fish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。
    01850
    大模型娱乐媒体# AI播客能容创作# AI有声书内容创作# AI游戏角色语音
    OmniAudio

    OmniAudio

    阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。
    02120
    大模型娱乐媒体# AI增强现实# AI虚拟现实# AI音频内容创作
    加载更多
    AI大学堂
    AI工具导航
    XD导航,是一个导航分类平台,为广大用户推荐各行业优秀的网址,APP,软件等,更加迎合用户,精细化,职业化,专业化,让不同小众化用户能有更好的用户体验,同时XD导航也是一个浏览器主页,提供了不同主流搜索引擎入口,和官网首页链接入口导航,整理分类了各网址、APP/资源、书籍等,提升效能,一键必达,还有AI技术运用,资讯分享等,欢迎您使用。

    友链申请隐私政策广告合作关于我们免责声明

    扫码加QQ群AI工具导航
    扫码加QQ群
    Copyright © 2026 AI工具导航 滇ICP备2023005905号-3 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件书籍
    热门AI工具搜索
    TraeAI大学堂星辰Agent问小白绘蛙讯飞文书有言AI