AI 音频
131 个实体 · 自动按 Tier 分层 · NavXD 知识图谱已收录
旗舰
// TIER-1 · 本主题最具影响力的 12 个Open Screen
OpenScreen 是一款免费、开源的屏幕录制与演示制作工具,作为 Screen Studio 的简洁替代方案,支持全屏及指定
Fun-ASR1.5
阿里达摩院推出的语音识别模型与工具链版本。
SenseAudio
商汤推出的语音理解与语音转写模型平台。
OmniVoice
支持 600 多种语言的零样本语音克隆 TTS 模型。
Lyra 2.0
Google 推出的低比特率实时语音编解码模型。
AI-Media2Doc
一款开源的 AI 图文创作助手,能够将音频和视频内容一键转换为多种风格的文档,如小红书笔记、微信公众号文章、知识笔记、思维导图等
Udio
Udio 是由前Google DeepMind团队研发的AI音乐生成平台,凭借其强大的文本到音乐的转换能力与开源生态,迅速成为全
Replika
Replika 是一个适合需要情感陪伴、自我反思或心理支持的用户的 AI 应用。通过自然语言处理和情感智能技术,Replika
Character.AI
Character.AI 是一款结合娱乐、情感支持和学习的 AI 应用,让用户通过与拟人化角色的互动,获得多样化的体验。无论是娱
Otter.ai
通过人工智能和机器学习技术提供语音转录和会议生产力工具,帮助用户简化会议流程并提升协作效率。
Suno
Suno, Inc.开发的AI音乐创作平台
ElevenLabs
这是一家专注于AI语音合成技术的初创公司,可以创建不同语言、口音和情感的合成语音。
实用
// TIER-2 · 稳定推荐档TEN VAD
一款面向企业级应用的实时语音活动检测系统,能够提供精准的帧级语音活动检测。
StepAudio R1
StepAudio R1 是首个真正能对音频进行“Chain-of-Thought(CoT)推理 / 深度分析”的开源音频语言模
FireRedASR2S
小红书 FireRed 团队推出的自动语音识别模型。
LongCat-AudioDiT
美团 LongCat 团队推出的扩散式高保真语音生成模型。
MoonCast
一款先进的零样本 AI 播客生成工具,能够直接从纯文本输入中生成自然流畅的播客语音内容。
VoiceSculptor
VoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成(Instruct TTS)系统,基于 LLa
按类型浏览
// 4 种实体 · 每类 Top 6工具 // 126
查看全部 126 个 →Open Screen
OpenScreen 是一款免费、开源的屏幕录制与演示制作工具,作为 Screen Studio 的简洁替代方案,支持全屏及指定
Fun-ASR1.5
阿里达摩院推出的语音识别模型与工具链版本。
SenseAudio
商汤推出的语音理解与语音转写模型平台。
OmniVoice
支持 600 多种语言的零样本语音克隆 TTS 模型。
Lyra 2.0
Google 推出的低比特率实时语音编解码模型。
AI-Media2Doc
一款开源的 AI 图文创作助手,能够将音频和视频内容一键转换为多种风格的文档,如小红书笔记、微信公众号文章、知识笔记、思维导图等
