AI 音频

Open Screen

OpenScreen 是一款免费、开源的屏幕录制与演示制作工具，作为 Screen Studio 的简洁替代方案，支持全屏及指定

⭐ 37.7k→

Fun-ASR1.5

阿里达摩院推出的语音识别模型与工具链版本。

⭐ 16.6k→

SenseAudio

商汤推出的语音理解与语音转写模型平台。

⭐ 8.3k→

OmniVoice

支持 600 多种语言的零样本语音克隆 TTS 模型。

⭐ 6.7k→

Lyra 2.0

Google 推出的低比特率实时语音编解码模型。

⭐ 4.0k→

AI-Media2Doc

一款开源的 AI 图文创作助手，能够将音频和视频内容一键转换为多种风格的文档，如小红书笔记、微信公众号文章、知识笔记、思维导图等

⭐ 3.8k→

Udio

Udio 是由前Google DeepMind团队研发的AI音乐生成平台，凭借其强大的文本到音乐的转换能力与开源生态，迅速成为全

Replika

Replika 是一个适合需要情感陪伴、自我反思或心理支持的用户的 AI 应用。通过自然语言处理和情感智能技术，Replika

Character.AI

Character.AI 是一款结合娱乐、情感支持和学习的 AI 应用，让用户通过与拟人化角色的互动，获得多样化的体验。无论是娱

智能体T1

Otter.ai

通过人工智能和机器学习技术提供语音转录和会议生产力工具，帮助用户简化会议流程并提升协作效率。

Suno

Suno, Inc.开发的AI音乐创作平台

ElevenLabs

这是一家专注于AI语音合成技术的初创公司，可以创建不同语言、口音和情感的合成语音。

实用

// TIER-2 · 稳定推荐档

TEN VAD

一款面向企业级应用的实时语音活动检测系统，能够提供精准的帧级语音活动检测。

⭐ 2.1k→

StepAudio R1

StepAudio R1 是首个真正能对音频进行“Chain-of-Thought（CoT）推理 / 深度分析”的开源音频语言模

⭐ 668→

FireRedASR2S

小红书 FireRed 团队推出的自动语音识别模型。

⭐ 523→

LongCat-AudioDiT

美团 LongCat 团队推出的扩散式高保真语音生成模型。

⭐ 509→

MoonCast

一款先进的零样本 AI 播客生成工具，能够直接从纯文本输入中生成自然流畅的播客语音内容。

⭐ 347→

VoiceSculptor

VoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成（Instruct TTS）系统，基于 LLa

⭐ 245→

按类型浏览

// 4 种实体 · 每类 Top 6

工具 // 140

查看全部 140 个 →

Open Screen

OpenScreen 是一款免费、开源的屏幕录制与演示制作工具，作为 Screen Studio 的简洁替代方案，支持全屏及指定

⭐ 37.7k→

Fun-ASR1.5

阿里达摩院推出的语音识别模型与工具链版本。

⭐ 16.6k→

SenseAudio

商汤推出的语音理解与语音转写模型平台。

⭐ 8.3k→

OmniVoice

支持 600 多种语言的零样本语音克隆 TTS 模型。

⭐ 6.7k→

Lyra 2.0

Google 推出的低比特率实时语音编解码模型。

⭐ 4.0k→

AI-Media2Doc

一款开源的 AI 图文创作助手，能够将音频和视频内容一键转换为多种风格的文档，如小红书笔记、微信公众号文章、知识笔记、思维导图等

⭐ 3.8k→

模型 // 3

查看全部 3 个 →

模型T3

Gemini 3.1 Flash TTS

Google 推出的低延迟文本转语音模型。

模型T3

BERT-VITS2

这是一种基于BERT和VITS2的语言模型，可以用于各种自然语言处理任务，如文本分类、命名实体识别、情感分析等。

模型T3

GPT-SoVITS

这是一款功能强大的AI音色克隆软件，通过简单输入5秒的声音样本，即可享受文字转语音的便利。

公司 // 1

查看全部 1 个 →

公司T3

Puretalk AI®

具备同理心与情感的 AI 对话体验。

智能体 // 1

查看全部 1 个 →

智能体T1

Otter.ai

通过人工智能和机器学习技术提供语音转录和会议生产力工具，帮助用户简化会议流程并提升协作效率。