最近收录AI

共 973 篇网址

AI工具导航每日最新收录的 AI 工具，涵盖 AI 写作、绘画、视频生成、智能助手等多个领域。每日更新，助您快速发现高效实用的人工智能工具，提升工作与学习效率。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

排序

发布更新浏览点赞

Skywork桌面版

Skywork桌面版（Skywork Desktop）是昆仑天工推出的 Windows 原生 AI 办公助手，可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容，实现跨格式、跨模态的智能处理与自动化任务执行。

01690

内容创作数据分析与预测 # AI Agent # Skywork桌面版 # Windows 桌面助手

PixVerse R1

PixVerse R1 是一种实时世界模型 AI 系统，基于原生多模态基础模型与自回归流式生成机制，实现连续、低延迟的 1080P 视觉流生成，适用于互动媒体、模拟与实时视频生成等场景。

01690

最近收录AI # 世界模型 # 即时响应引擎 # 多模态融合

Design Arena

Design Arena 是一个全球性 AI 设计评测平台，通过匿名头对头对决与 Elo 排名系统评估 AI 模型在设计任务中的表现。

01690

最近收录AI # AI 模型性能评估 # AI 设计评测平台

LightOnOCR-2-1B

LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR（光学字符识别）模型，用于将文档图像（如 PDF、扫描件或照片）转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别，并支持多种输入格式与布局类型。

01660

大模型最近收录AI # 图像检测 # 多语言支持 # 布局解析

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容，结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染，适用于短剧、广告、自媒体等多种视觉内容创作场景。

01650

大模型最近收录AI # AI 视频生成 # Vidu Q3 # 原生音频生成

白虎-VTouch

白虎-VTouch 是由国家地方共建人形机器人创新中心与纬钛机器人联合发布的跨本体视触觉多模态机器人操作数据集，包含视觉传感、触觉反馈与机器人关节位姿等多模态信息，数据规模超过 60000 分钟，旨在推动具身智能模型研发与机器人物理交互能力提升。

01650

最近收录AI # RGB-D # 关节位姿 # 具身智能

Happy

Happy（Happy Coder）是开源的 AI 编程远程控制工具，用于从移动设备或网页控制本地运行的 Claude Code 或 Codex，支持实时同步、端到端加密、多会话与语音控制等功能。

01630

开源工具与社区最近收录AI # AI编程控制 # 实时会话同步 # 远程终端控制

可灵3.0模型

可灵3.0模型是快手推出的新一代统一多模态AI创作模型，支持图像与视频生成、智能分镜、多语言音画同步等功能。

01630

大模型最近收录AI # AI图像生成 # AI视频生成 # Kling 3.0

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别（ASR）模型，支持单次处理最长约 60 分钟连续音频，并输出包含说话者标识、时间戳与转录文本的结构化结果，适用于会议、讲座、播客等长音频语音识别场景。

01620

最近收录AI 语音识别与生成 # 时间戳 # 热词识别 # 结构化转录

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力，并提供开源权重与企业部署选项。

01580

大模型开源工具与社区 # 多语言支持 # 实时转录 # 语音转写

MiniCPM-o 4.5

MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型（Vision + Language + Speech），具有实时语音对话、多模态实时流处理、视觉语义理解和 OCR 文档解析能力，适用于 AI 工具使用者在不同场景下进行端侧或服务器推理部署。

01580

大模型最近收录AI # MiniCPM-o 4.5 # OCR # 多模态

TTT‑Discover

TTT‑Discover 是一种测试时训练（Test‑Time Training）框架，应用在线强化学习于大语言模型在推理阶段持续训练以发现高奖励解决方案。该方法在数学优化、GPU 内核设计、算法竞赛与生物数据分析等多领域刷新最优成果，并且可复现运行于开源模型与工具链。

01560

教育与学习最近收录AI # 在线强化学习 # 测试时训练 # 科学发现AI

DeepSeek-OCR 2

DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR（光学字符识别）视觉语言模型，基于 Visual Causal Flow 机制处理图像与文档输入，生成结构化文本输出（如 Markdown/JSON），用于复杂文档的逻辑顺序转录与布局感知识别。

01550

大模型最近收录AI # Markdown 输出 # OCR 模型 # 复杂布局识别

ACE-Step 1.5

ACE-Step 1.5 是一个开源 AI 音乐生成基础模型，采用混合架构支持快速生成整首音乐、歌词对齐、多语言支持及灵活编辑功能，输出结构化内容资产聚焦音乐生成能力、用例及用户指南。

01520

大模型开源工具与社区 # ACE-Step 1.5 # AI 音乐生成 # 音乐生成基础模型

CL-bench

CL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准，旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务，并通过严格的验证标准衡量模型的 Context 实时学习水平，是目前检测模型是否具备 Context 学习能力的重要评估工具。

01490

最近收录AI # CL-bench # Context 学习 # 动态上下文理解

梦纪元

梦纪元是一款专注于沉浸式情感陪伴的AI聊天应用，支持自定义角色、角色主动互动与个性化场景设置，为用户提供有温度的虚拟陪伴体验。

01480

AI工具下载 AI常用工具 # AI情感陪伴 # AI聊天 # AI角色扮演

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染、多种输出样式和格式，并集成原生音频，为创作者提供快速迭代的视觉内容制作能力。

01480

最近收录AI 计算机视觉 # AI 图像生成 # AI 视频生成 # Aurora 引擎

UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的视觉-语言-动作（VLA）通用机器人操作大模型，基于 Qwen2.5-VL-7B 架构并通过机器人操作数据持续预训练，实现文本指令与视觉信息融合用于空间理解与动作规划，可在仿真与真实机器人上完成多类复杂操作任务。

01470

大模型最近收录AI # UnifoLM-VLA-0 # VLA # 多模态推理

MiniMax Music 2.5

MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型，在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破，支持精细化控制音乐结构、声乐表现和混音策略，适用于专业音乐创作与生成工作流。

01470

大模型最近收录AI # AI 音乐生成 # MiniMax Music 2.5 # 段落级控制

GELab-Zero

GELab-Zero 是由 StepFun AI 团队开源的一款轻量级 GUI Agent — 能本地部署、运行于普通硬件上的 4B GUI 智能体，支持跨 App 界面自动交互、多设备任务分发、隐私保护，适合开发者、自动化工程师、普通用户用于手机 /移动设备自动化、批量操作、任务自动化和智能脚本构建。

01460

最近收录AI # GUI Agent

Project Genie

Project Genie 是 Google Labs 推出的实验性 AI 世界生成工具，由 Genie 3 世界模型驱动，允许用户通过文字或图像提示创建、探索和重混可交互虚拟世界。本文提供 Project Genie 的定义、架构、能力、使用指南、应用场景与常见问题的结构化事实内容。

01330

最近收录AI # AI 世界生成 # Google Labs Project Genie # 可交互 3D 世界

Step 3.5 Flash

Step 3.5 Flash 是 StepFun 发布的开源大语言模型，采用稀疏 Mixture-of-Experts (MoE) 架构以提升推理与逻辑任务效率，支持长上下文与高速度生成能力，适合用于编码、代理任务及复杂多步骤推理。模型提供本地部署与 API 接入选项，支持长达 256K 上下文处理能力。

01330

大模型开源工具与社区 # Agent 基座模型 # 上下长文 # 大语言模型

MiniMax-M2-her

MiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体，基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。

01290

大模型最近收录AI # Agentic 数据合成 # MiniMax-M2-her # 上下文记忆

AI大学堂