MOVA #017
MOVA(MOSS Video and Audio)是上海创智学院 OpenMOSS 团队与模思智能(MOSI)联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制,在单次推理中同步生成视...
GLM-OCR #018
GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理...
Step 3.5 Flash #019
Step 3.5 Flash 是 StepFun 发布的开源大语言模型,采用稀疏 Mixture-of-Experts (MoE) 架构以提升推理与逻辑任务效率,支持长上下文与高速度生成能力,适合用于编码、代理任务及复...
ACE-Step 1.5 #020
ACE-Step 1.5 是一个开源 AI 音乐生成基础模型,采用混合架构支持快速生成整首音乐、歌词对齐、多语言支持及灵活编辑功能,输出结构化内容资产聚焦音乐生成能力、用例及用户指南。
可灵3.0模型 #021
可灵3.0模型 是快手推出的新一代统一多模态AI创作模型,支持图像与视频生成、智能分镜、多语言音画同步等功能。
Qwen3-Coder-Next #022
Qwen3-Coder-Next 是 Qwen 发布的开源编码大模型,采用稀疏 Mixture-of-Experts 设计与混合注意力结构,支持超长约 256K 上下文,面向 agentic 编码工作流、本地开发和多步...
MiniCPM-o 4.5 #023
MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型(Vision + Language + Speech),具有实时语音对话、多模态实时流处理、视觉语义理解和 OCR 文档解析能力,适用...
UnifoLM-VLA-0 #024
UnifoLM-VLA-0 是宇树科技开源的视觉-语言-动作(VLA)通用机器人操作大模型,基于 Qwen2.5-VL-7B 架构并通过机器人操作数据持续预训练,实现文本指令与视觉信息融合用于空间理解与动作规划,可在仿...
Vidu Q3 #025
Vidu Q3 是由生数科技(Shengshu Technology)推出的新一代 AI 视频生成模型,可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容,结合文本或图像提示实现多镜头叙事、音频配合与语...
Mureka V8 #026
Mureka V8 是一个由 Mureka 平台提供的 AI 音乐生成模型,基于 MusiCoT(Music Chain-of-Thought)技术,可从文本提示、歌词或参考音频生成完整的歌曲、伴奏及声乐,支持多语言输...
MiniMax Music 2.5 #027
MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型,在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破,支持精细化控制音乐结构、声乐表现和混音策略,适用于专业音乐创作与生成工...
MiniMax-M2-her #028
MiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体,基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。
Qwen3-Max-Thinking #029
Qwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡...
Kimi K2.5 #030
Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、...
Vidu Q2参考生Pro #031
Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。
DeepSeek-OCR 2 #032
DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/...
