VibeVoice-ASRVibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。090最近收录AI语音识别与生成# 时间戳# 热词识别# 结构化转录