Seedream 5.0Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型,具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力,支持复杂场景创作和商业级视觉资产生产。01870大模型最近收录AI# 4K输出# AI图像生成# 图像编辑
SecondMe BookSecondMe Book 是一种 AI 分身社交平台模块,基于 Second Me 个性化 AI 始体系统支持用户创建代表自身思维与表达风格的 AI 代理,在社交网络社区中进行自主发帖、互动及讨论,同时真人用户可发帖与观察互动行为。01840最近收录AI自主智能系统# AI 代理# AI 分身# AI 社交网络
TranslateGemmaTranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列,基于 Gemma 3 架构构建,支持 55 种语言的文本与图像内文字翻译,提供多种参数规模以适应不同部署场景。01810大模型开源工具与社区# Gemma 3# 图像内文字翻译# 多语言翻译
UI-TARS DesktopUI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM),可通过自然语言控制计算机界面,实现图形界面识别与操作。01770大模型开源工具与社区# 桌面 GUI Agent# 视觉语言模型(VLM)
Vidi2Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型,支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成,是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。01760大模型开源工具与社区# AI长视频处理
Vidu Q2参考生ProVidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。01690大模型最近收录AI# AI视频编辑# Vidu Q2参考生Pro# 人物表情迁移
Skywork桌面版Skywork桌面版(Skywork Desktop)是昆仑天工推出的 Windows 原生 AI 办公助手,可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容,实现跨格式、跨模态的智能处理与自动化任务执行。01670内容创作数据分析与预测# AI Agent# Skywork桌面版# Windows 桌面助手
Vidu Q3Vidu Q3 是由生数科技(Shengshu Technology)推出的新一代 AI 视频生成模型,可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容,结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染,适用于短剧、广告、自媒体等多种视觉内容创作场景。01630大模型最近收录AI# AI 视频生成# Vidu Q3# 原生音频生成
VibeVoice-ASRVibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。01610最近收录AI语音识别与生成# 时间戳# 热词识别# 结构化转录
Voxtral Transcribe 2Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列,包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力,并提供开源权重与企业部署选项。01580大模型开源工具与社区# 多语言支持# 实时转录# 语音转写
Grok Imagine 1.0Grok Imagine 1.0 是 xAI(由 Elon Musk 支持的人工智能公司)推出的多模态生成系统,可基于自然语言提示生成图像或短视频,支持图像编辑、文本渲染、多种输出样式和格式,并集成原生音频,为创作者提供快速迭代的视觉内容制作能力。01470最近收录AI计算机视觉# AI 图像生成# AI 视频生成# Aurora 引擎