// 01 OmniAudio 是什么
OmniAudio是由阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。
🛠️ 如何使用 OmniAudio?
OmniAudio 已在 GitHub 上开源,用户可以通过以下方式使用:
访问项目主页:了解模型的背景和使用方法。
下载代码和数据:从 GitHub 仓库获取源码和相关数据集。
阅读技术论文:深入理解模型的技术细节和实现原理。
项目主页:https://omniaudio-360v2sa.github.io/
GitHub 仓库:https://github.com/liuhuadai/OmniAudio
技术论文:https://arxiv.org/abs/2504.14906
🔧 主要功能
从 360° 视频生成空间音频:OmniAudio 能够根据全景视频内容,生成与视觉信息一致的空间音频,增强沉浸式体验。
支持多种音频事件:模型训练使用了包含 288 种音频事件的 Sphere360 数据集,具备广泛的音频识别和生成能力。
高质量音频输出:生成的空间音频具有高保真度,适用于各种专业应用场景。
🧠 技术原理
OmniAudio 的训练方法分为两个阶段:
自监督的 coarse-to-fine 流匹配预训练:通过自监督学习,模型能够初步掌握视频与音频之间的对应关系。
基于双分支视频表示的有监督微调:利用双分支的视频表示结构,进一步优化模型的音频生成能力。
此外,通义团队还构建了 Sphere360 数据集,包含超过 10.3 万个真实世界视频片段,总时长达到 288 小时,为模型提供了丰富的训练数据。
🌐 应用场景
虚拟现实(VR)和增强现实(AR):为 VR/AR 应用提供真实感更强的音频体验。
沉浸式娱乐:提升电影、游戏等娱乐内容的沉浸感。
教育培训:在模拟训练和远程教学中,提供更真实的音频环境。
音频内容创作:辅助音频工程师和创作者生成高质量的空间音频。
🔗 项目地址
GitHub 仓库:https://github.com/liuhuadai/OmniAudio

