Stream‑OmniStream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合(文本、图像、语音)并生成文本和语音回应,具备边听边列文字中转、轻量训练与同声互动能力,是 AI 工具使用者构建多模态界面的优秀起点。04550开源工具与社区教育者与研究人员# AI聊天机器人# AI语音助手# 多模态聊天应用
Higgs Audio V2Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。04510大模型开源工具与社区# AI情感语音合成# AI语音克隆# 音频生成与理解基础模型
LeVoLeVo 是由清华、大氪 AI Labs 联合开发的高保真音乐生成框架,支持歌词转歌、声乐与伴奏融合、DPO 多偏好对齐,适用于音乐创作、音频生成领域的 AI 工具用户。04510教育与学习最近收录AI# AI作曲辅助# AI音乐创作# AI音乐模型
VoxtralVoxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。04420大模型开源工具与社区# AI摘要生成# AI语音转录# AI语音问答
HunyuanVideo-Avatar腾讯混元团队联合腾讯音乐天琴实验室(MuseV)于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。04340大模型最近收录AI# AI数字人# AI短视频生成工具# AI虚拟主播
SongGenerationSongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲,支持中文与英文,适合 AI 工具使用者快速落地音乐创作。04300大模型开源工具与社区# AI音乐生成# 多语言支持
Huxe AIHuxe AI——一款全新的“个人音频伴侣应用”,由前Google NotebookLM团队打造,支持每日个性化音频简报与实时问答互动。04200教育与学习最近收录AI# AI英语听力练习# AI语音互动# 个人音频伴侣应用
MakeSongMakeSong 是一款AI歌曲生成器,支持将文本或歌词快速转化为专业级、可商用的 AI 歌曲,适合 AI 工具使用者进行视频背景音乐、社交媒体内容创作与音乐原型制作。04160最近收录AI语音识别与生成# AI歌曲生成工具# AI歌曲生成平台# 文本转歌曲
ThinkSoundThinkSound 是一款基于 Chain-of-Thought 推理的多模态音频生成与编辑框架,支持任意模态输入(视频、文本、音频),可交互地为视频生成高质 Foley 声音、定向对象声音细化和自然语言音频编辑,适合 AI 工具使用者打造智能多模态内容流程。04140最近收录AI语音识别与生成# AI音频生成框架# 多模态音频生成
闪电说闪电说是一款端侧优先的 AI 语音输入工具,主打毫秒级语音识别与本地处理,支持 Windows 和 macOS。它通过 AI 优化和即时转写,让语音输入比传统键盘快 4 倍,同时保护用户隐私,适合写作、编程、聊天、会议记录等多种场景。04110内容创作语音识别与生成# AI润色# AI语音输入法
EapyEapy 是一款由 Pozalabs 开发的 AI 音乐平台,专注于帮助音乐创作者轻松推广作品并提升创作效率。它允许用户上传音乐、图像和文本,生成高质量的在线推广页面,吸引唱片公司、A&R 代表和同步代理的注意。04070语音识别与生成# AI辅助作曲# AI音乐创作平台# AI音乐实时协作
小凹语音输入法“小凹语音输入法” 是由 智谱 AI 推出的智能语音转写工具,支持高准确率语音识别、多场景语音输入与自动润色,帮助用户显著提升写作 /输入效率。04020最近收录AI语音识别与生成# AI润色工具# AI语音转写# AI语音输入
字节跳动SeedSeed LiveInterpret 2.0 是字节跳动 Seed 团队推出的端到端双向中英文语音同传模型,支持零样本声音克隆、超低延迟(约 2–3 秒)实时翻译,适用于 AI 工具使用者与跨语言交流场景。03940最近收录AI语音识别与生成# AI声音克隆# AI翻译
MOSS‑TTSDMOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。03850大模型最近收录AI# AI客服# AI播客# AI语音生成框架
VuiVui——一款轻量级、轻量级语音对话模型(Lightweight Voice Dialogue Model),具备上下文感知与声纹克隆能力的开源 on‑device 模型。03800开源工具与社区最近收录AI# AI个人助理# AI声音克隆# AI多角色对话
PlayDiffusionPlay AI 公司推出的开源音频编辑模型,基于先进的扩散模型(diffusion model)构建,专注于提供高效的音频精细编辑与修复功能。03770大模型开源工具与社区# AI配音# AI音频编辑模型# 播客制作
11.ai11ai,即 ElevenLabs,由 Piotr Dąbkowski 和 Mati Staniszewski 于 2022 年创办,总部位于纽约,专注于开发高质量语音合成与克隆技术。03700API与SDK最近收录AI# AI播客制作# AI有声书# AI语音克隆
Voxiyo深入解析 Voxiyo:一款面向 AI 工具使用者的智能语音记录与摘要 App,涵盖核心功能、使用流程、技术解析、实用场景与常见问答,帮助你高效管理语音笔记。03640教育与学习最近收录AI# AI总结# AI提取任务清单# AI语音笔记
AI-Media2Doc一款开源的 AI 图文创作助手,能够将音频和视频内容一键转换为多种风格的文档,如小红书笔记、微信公众号文章、知识笔记、思维导图等。03580开源工具与社区最近收录AI# Ai图文创作助手
Eleven v3由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音(TTS)模型的 Alpha 版本。03470大模型最近收录AI# AI多角色对话# AI广告配音# AI情感表达
PreenCutPreenCut 是一款开源 AI 视频检索与剪辑工具,支持语音识别(WhisperX)、LLM 分析、自然语言查询与批量处理,为 AI 工具使用者提供高效精准的视频片段检索和剪辑能力。03370开源工具与社区数据分析与预测# AI段落标注# AI视频剪辑工具# AI视频检索工具
Aimi Sync可在短时间内根据视频内容自动生成完整版权清晰的原创音轨,并通过逐帧分析实现多层音频的精准同步。03070最近收录AI语音识别与生成# AI生成音轨# AI音乐生成器# AI音乐视频生成器
OmniAudio阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。03040大模型娱乐媒体# AI增强现实# AI虚拟现实# AI音频内容创作
AiMakeSong一款基于人工智能的在线音乐生成平台,旨在帮助用户通过简单的文本输入或歌词创作,快速生成高质量的原创歌曲。03030娱乐媒体最近收录AI# AI在线音乐生成平台# AI歌词生成工具# 文本转歌曲
GLM-TTSGLM-TTS 是一款由 Zhipu AI 开源的工业级 文本转语音(TTS) 系统,支持零样本音色克隆、情感表达控制与流式生成。它采用双阶段架构与多奖励强化学习,可实现高质量自然语音合成,适用于语音助手、有声读物、客服、教育等多种场景。03020内容创作开源工具与社区# AI有声读物# AI语音克隆# 文本转语音(TTS)
MiniWorkMiniWork 是一站式 AI 工具平台,集成写作助手、图像编辑、PDF 转换、营销分析、SEO 优化等多功能,支持 GPT‑4o、Claude 3.7、Gemini 2.5 等多种模型,适用于内容创作者、运营人员和职场精英,提升工作效率。03010写作助手最近收录AI# AI图像生成# AI图像编辑# AI工具平台
Vocloner一款完全免费的在线 AI 语音克隆工具,能够在几秒钟内通过上传音频样本来即时生成语音克隆模型,支持多语言和情感语调选择。02930教育与学习最近收录AI# AI语音克隆工具# 多语言支持
Avido.aiAvido.ai 是一款面向内容创作者的 AI视频工具生成工具,支持从脚本、图像到配音自动生成高质量视听内容,并能自动上传 YouTube 和 TikTok,实现内容自动化创作和发布。02790免费AI工具最近收录AI# AI 视频创作平台# AI视频生成工具# AI视频脚本撰写
Echovox StudioEchovox Studio 是一款 AI 驱动的全流程音频创作平台,涵盖脚本构思、AI 配音、声音克隆与高级音频编辑,适合播客、视频配音者与内容创作者,高效生成专业音频内容。02730最近收录AI语音识别与生成# AI文本转语音# AI脚本助手# AI语音克隆
OpenAudioFish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。02680大模型娱乐媒体# AI播客能容创作# AI有声书内容创作# AI游戏角色语音
PodGen.io一款由 AI 驱动的播客生成平台,可以将文章、PDF、网站、YouTube 视频、文本和脚本等内容,快速转换为专业级音频播客。02640教育与学习最近收录AI# AI播客生成平台# AI配音# 多语言处理
Mozart AIMozart AI 是首个AI 驱动的数字音频工作站(DAW),通过自然语言或语音交互生成和编辑音乐元素,提供协助式创作流程,适合 AI 工具使用者和音乐创作者快速落地灵感。02620最近收录AI语音识别与生成# AI 数字音频工作站# AI协作式创作
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。02520内容创作大模型# AI语音助手# 多语言语音输出
讯飞输入法讯飞输入法是由 科大讯飞 出品的一款多模式智能中文输入法,支持语音、拼音、手写、拍照 OCR、方言识别等多种输入方式,并可高度自定义键盘皮肤与输入体验,适合日常聊天、办公、学习与跨语言沟通用户。02140内容创作最近收录AI# AI输入法
VoiceSculptorVoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成(Instruct TTS)系统,基于 LLaSA 与 CosyVoice2 支持自然语言描述控制音色、语速、音调、情感等属性,并可用于声音设计与语音合成任务。02040开源工具与社区最近收录AI# AI语音克隆
Gemini TTSGemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。01980API与SDK内容创作# AI语音合成# 多语言支持# 文本转语音
SpokenlySpokenly 是一款适用于 macOS / iOS 的智能语音听写与语音-驱动输入工具,支持 100+ 语言、离线转写与云服务、实时语音转文字、AI 文本润色、语音命令控制,适合写作、会议记录、聊天、编程、文档编辑等各种文本输入场景。01960最近收录AI语音识别与生成# AI语音转文字