Skywork桌面版Skywork桌面版(Skywork Desktop)是昆仑天工推出的 Windows 原生 AI 办公助手,可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容,实现跨格式、跨模态的智能处理与自动化任务执行。01690内容创作数据分析与预测# AI Agent# Skywork桌面版# Windows 桌面助手
PixVerse R1PixVerse R1 是一种实时世界模型 AI 系统,基于原生多模态基础模型与自回归流式生成机制,实现连续、低延迟的 1080P 视觉流生成,适用于互动媒体、模拟与实时视频生成等场景。01690最近收录AI# 世界模型# 即时响应引擎# 多模态融合
Design ArenaDesign Arena 是一个全球性 AI 设计评测平台,通过匿名头对头对决与 Elo 排名系统评估 AI 模型在设计任务中的表现。01690最近收录AI# AI 模型性能评估# AI 设计评测平台
LightOnOCR-2-1BLightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局类型。01660大模型最近收录AI# 图像检测# 多语言支持# 布局解析
Vidu Q3Vidu Q3 是由生数科技(Shengshu Technology)推出的新一代 AI 视频生成模型,可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容,结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染,适用于短剧、广告、自媒体等多种视觉内容创作场景。01650大模型最近收录AI# AI 视频生成# Vidu Q3# 原生音频生成
白虎-VTouch白虎-VTouch 是由国家地方共建人形机器人创新中心与纬钛机器人联合发布的跨本体视触觉多模态机器人操作数据集,包含视觉传感、触觉反馈与机器人关节位姿等多模态信息,数据规模超过 60000 分钟,旨在推动具身智能模型研发与机器人物理交互能力提升。01650最近收录AI# RGB-D# 关节位姿# 具身智能
HappyHappy(Happy Coder)是开源的 AI 编程远程控制工具,用于从移动设备或网页控制本地运行的 Claude Code 或 Codex,支持实时同步、端到端加密、多会话与语音控制等功能。01630开源工具与社区最近收录AI# AI编程控制# 实时会话同步# 远程终端控制
可灵3.0模型可灵3.0模型 是快手推出的新一代统一多模态AI创作模型,支持图像与视频生成、智能分镜、多语言音画同步等功能。01630大模型最近收录AI# AI图像生成# AI视频生成# Kling 3.0
VibeVoice-ASRVibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。01620最近收录AI语音识别与生成# 时间戳# 热词识别# 结构化转录
Voxtral Transcribe 2Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列,包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力,并提供开源权重与企业部署选项。01580大模型开源工具与社区# 多语言支持# 实时转录# 语音转写
MiniCPM-o 4.5MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型(Vision + Language + Speech),具有实时语音对话、多模态实时流处理、视觉语义理解和 OCR 文档解析能力,适用于 AI 工具使用者在不同场景下进行端侧或服务器推理部署。01580大模型最近收录AI# MiniCPM-o 4.5# OCR# 多模态
TTT‑DiscoverTTT‑Discover 是一种测试时训练(Test‑Time Training)框架,应用在线强化学习于大语言模型在推理阶段持续训练以发现高奖励解决方案。该方法在数学优化、GPU 内核设计、算法竞赛与生物数据分析等多领域刷新最优成果,并且可复现运行于开源模型与工具链。01560教育与学习最近收录AI# 在线强化学习# 测试时训练# 科学发现AI
DeepSeek-OCR 2DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/JSON),用于复杂文档的逻辑顺序转录与布局感知识别。01550大模型最近收录AI# Markdown 输出# OCR 模型# 复杂布局识别
ACE-Step 1.5ACE-Step 1.5 是一个开源 AI 音乐生成基础模型,采用混合架构支持快速生成整首音乐、歌词对齐、多语言支持及灵活编辑功能,输出结构化内容资产聚焦音乐生成能力、用例及用户指南。01520大模型开源工具与社区# ACE-Step 1.5# AI 音乐生成# 音乐生成基础模型
CL-benchCL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准,旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务,并通过严格的验证标准衡量模型的 Context 实时学习水平,是目前检测模型是否具备 Context 学习能力的重要评估工具。01490最近收录AI# CL-bench# Context 学习# 动态上下文理解
梦纪元梦纪元是一款专注于沉浸式情感陪伴的AI聊天应用,支持自定义角色、角色主动互动与个性化场景设置,为用户提供有温度的虚拟陪伴体验。01480AI工具下载AI常用工具# AI情感陪伴# AI聊天# AI角色扮演
Grok Imagine 1.0Grok Imagine 1.0 是 xAI(由 Elon Musk 支持的人工智能公司)推出的多模态生成系统,可基于自然语言提示生成图像或短视频,支持图像编辑、文本渲染、多种输出样式和格式,并集成原生音频,为创作者提供快速迭代的视觉内容制作能力。01480最近收录AI计算机视觉# AI 图像生成# AI 视频生成# Aurora 引擎
UnifoLM-VLA-0UnifoLM-VLA-0 是宇树科技开源的视觉-语言-动作(VLA)通用机器人操作大模型,基于 Qwen2.5-VL-7B 架构并通过机器人操作数据持续预训练,实现文本指令与视觉信息融合用于空间理解与动作规划,可在仿真与真实机器人上完成多类复杂操作任务。01470大模型最近收录AI# UnifoLM-VLA-0# VLA# 多模态推理
MiniMax Music 2.5MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型,在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破,支持精细化控制音乐结构、声乐表现和混音策略,适用于专业音乐创作与生成工作流。01470大模型最近收录AI# AI 音乐生成# MiniMax Music 2.5# 段落级控制
GELab-ZeroGELab-Zero 是由 StepFun AI 团队开源的一款轻量级 GUI Agent — 能本地部署、运行于普通硬件上的 4B GUI 智能体,支持跨 App 界面自动交互、多设备任务分发、隐私保护,适合开发者、自动化工程师、普通用户用于手机 /移动设备自动化、批量操作、任务自动化和智能脚本构建。01460最近收录AI# GUI Agent
Project GenieProject Genie 是 Google Labs 推出的实验性 AI 世界生成工具,由 Genie 3 世界模型驱动,允许用户通过文字或图像提示创建、探索和重混可交互虚拟世界。本文提供 Project Genie 的定义、架构、能力、使用指南、应用场景与常见问题的结构化事实内容。01330最近收录AI# AI 世界生成# Google Labs Project Genie# 可交互 3D 世界
Step 3.5 FlashStep 3.5 Flash 是 StepFun 发布的开源大语言模型,采用稀疏 Mixture-of-Experts (MoE) 架构以提升推理与逻辑任务效率,支持长上下文与高速度生成能力,适合用于编码、代理任务及复杂多步骤推理。模型提供本地部署与 API 接入选项,支持长达 256K 上下文处理能力。01330大模型开源工具与社区# Agent 基座模型# 上下长文# 大语言模型
MiniMax-M2-herMiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体,基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。01290大模型最近收录AI# Agentic 数据合成# MiniMax-M2-her# 上下文记忆