梦纪元梦纪元是一款专注于沉浸式情感陪伴的AI聊天应用,支持自定义角色、角色主动互动与个性化场景设置,为用户提供有温度的虚拟陪伴体验。0120AI工具下载AI常用工具# AI情感陪伴# AI聊天# AI角色扮演
GLM-5GLM-5 是 Zhipu AI(Z.ai)发布的第五代大型语言模型,采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制,支持高达 200K Token 的长上下文容量,具备先进的推理、编码、智能体任务及复杂逻辑处理能力,定位于开放源代码旗舰基础模型。0780大模型开源工具与社区# Moe架构# 大型语言模型# 智能体任务
Seedream 5.0Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型,具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力,支持复杂场景创作和商业级视觉资产生产。0640大模型最近收录AI# 4K输出# AI图像生成# 图像编辑
SkyBotSkyBot 是 Skywork 平台推出的 7×24 小时云端 AI 助理,基于 Cloud VM 与即时通讯集成,可主动执行多步骤复杂任务、长期记忆用户偏好,并支持 WhatsApp、Telegram 等 IM 工具实时交互,用于信息整理、数据分析、自动化任务及个人办公流程管理。01020最近收录AI自主智能系统# 云端AI助理# 即时通讯交互# 多步骤任务执行
NanobotNanobot 是香港大学数据智能实验室(HKUDS)开源的超轻量级个人 AI 助手框架,仅约 4000 行代码即实现完整智能体功能闭环,支持自然语言交互、网页搜索、文件操作、定时任务、长期记忆与多模型兼容,并能跨 Telegram、WhatsApp 等渠道运行。0890最近收录AI# 个人AI助手# 智能体框架# 模块化架构
PaperBananaPaperBanana 是由北京大学与 Google Cloud AI Research 联合提出的多智能体框架,用于自动化生成可出版级学术插图,包括方法论图与统计图。该系统结合视觉语言模型与图像生成技术,通过检索、规划、渲染与自我批判等步骤提升科研图像制作效率与质量。0730最近收录AI# 多智能体视觉识别规划# 方法图# 统计图
玄武 CLI玄武 CLI(xw-cli)是清昴智能开源的国产大模型部署与推理命令行工具,专为华为昇腾、沐曦、燧原等国产 AI 芯片深度适配与优化。该工具兼容 OpenAI API、自动调度推理引擎并提供本地模型管理与运行,旨在降低国产算力部署门槛,支持独立离线推理与开发环境快速搭建。0790最近收录AI模型管理与部署# CLI工具# OpenAI API 兼容# 国产大模型部署
SoulX-FlashTalkSoulX-FlashTalk 是 Soul AI Lab 开源的实时数字人生成模型,基于 14B 参数级别架构,通过自纠正双向蒸馏和全栈推理加速技术实现亚秒级延迟(0.87s)和持续 32 FPS 实时视频生成,主要用于音频驱动的虚拟形象交互、长时生成流式输出和多语言驱动应用场景。0690大模型最近收录AI# 亚秒级延迟# 交互性能# 实时数字人生成
Seedance 2.0Seedance 2.0 是基于先进 AI 视频生成模型的工具,支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频,适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。01610大模型最近收录AI# 1080p高清视频# AI视频生成# 多镜头叙事
WorkAny BotWorkAny Bot 是基于 OpenClaw 框架的云端 AI 智能体,支持 7×24 小时在线运行、接入多种 AI 模型、自定义插件及多渠道交互。它具备长期记忆、任务执行与自动化能力,可通过 Web 或即时通讯应用完成查询、内容生成、编程支持及办公自动化等任务。0800最近收录AI自主智能系统# AI智能体# 持续在线# 插件扩展
LingBot-VALingBot-VA 是蚂蚁灵波科技(Robbyant / Ant Group)发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法,实现视频动态未来预测与机器人动作序列推理的统一,在真实机器人与仿真环境中提升长时序与复杂操作任务的表现。0730大模型开源工具与社区# 机器人操作控制# 自回归推理# 视觉动作世界模型
OpenAI FrontierOpenAI Frontier 是 OpenAI 于 2026 年推出的企业级 AI 平台,用于构建、部署与管理 AI 代理(AI coworkers)。该平台连接企业内部系统与数据、提供共享业务上下文、身份权限控制和性能优化循环,并支持跨环境运行复杂工作任务。0780企业用户最近收录AI# AI 代理管理# 企业自动化# 共享业务上下文
Claude Opus 4.6Claude Opus 4.6 是 Anthropic 于 2026 年 2 月发布的下一代 Claude 系列 AI 模型变体,旨在增强编程任务、智能体执行、多步骤推理与超长上下文处理能力,支持长文档与大规模代码库分析、适用于复杂工作流与企业级应用。0890API与SDK大模型# 128K输出# 智能代理编码# 自适应思考模式
GPT-5.3 CodexGPT-5.3 Codex 是 OpenAI 于 2026 年推出的最新编码与智能代理模型变体,集成于 Codex 生态系统中,针对真实软件工程任务、代理协作和长流程执行进行了优化,提供跨环境集成与专业工作流支持。0800最近收录AI编程工具# GPT-5.3-Codex# 专业推理# 智能代理
Kilo CLI 1.0Kilo CLI 1.0 是一个开源、模型无关的终端优先命令行工具,设计用于支持在各种开发场景中执行 AI 驱动的编码、调试与任务自动化。该工具基于 OpenCode 开源基础构建,能访问 500+ 模型并支持多种工作模式,以便在命令行环境中完成计划、开发、调试与自动化任务。0880最近收录AI# AI 编码 CLI# 模型切换# 终端工具
Voxtral Transcribe 2Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列,包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力,并提供开源权重与企业部署选项。0700大模型开源工具与社区# 多语言支持# 实时转录# 语音转写
Intern-S1-ProIntern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型,具备混合专家(MoE)架构与通专融合架构(SAGE),在 AI4Science 科学推理与多模态理解任务上展现领先能力,支持跨学科科学研究与科研流程自动化。0770大模型开源工具与社区# AI4Science 推理# MoE 混合专家# 科学多模态大模型
MOVAMOVA(MOSS Video and Audio)是上海创智学院 OpenMOSS 团队与模思智能(MOSI)联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制,在单次推理中同步生成视频与音频输出,具备多语言唇形同步与环境音效生成等能力,支持最高 720p 和最长 8 秒的视听片段生成。0910大模型开源工具与社区# MOVA# 端到端多模态模型# 音视频同步生成
TTT‑DiscoverTTT‑Discover 是一种测试时训练(Test‑Time Training)框架,应用在线强化学习于大语言模型在推理阶段持续训练以发现高奖励解决方案。该方法在数学优化、GPU 内核设计、算法竞赛与生物数据分析等多领域刷新最优成果,并且可复现运行于开源模型与工具链。0660教育与学习最近收录AI# 在线强化学习# 测试时训练# 科学发现AI
Project GenieProject Genie 是 Google Labs 推出的实验性 AI 世界生成工具,由 Genie 3 世界模型驱动,允许用户通过文字或图像提示创建、探索和重混可交互虚拟世界。本文提供 Project Genie 的定义、架构、能力、使用指南、应用场景与常见问题的结构化事实内容。0580最近收录AI# AI 世界生成# Google Labs Project Genie# 可交互 3D 世界
GLM-OCRGLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。0630大模型开源工具与社区# OCR 模型# 多模态 OCR# 结构化输出
Step 3.5 FlashStep 3.5 Flash 是 StepFun 发布的开源大语言模型,采用稀疏 Mixture-of-Experts (MoE) 架构以提升推理与逻辑任务效率,支持长上下文与高速度生成能力,适合用于编码、代理任务及复杂多步骤推理。模型提供本地部署与 API 接入选项,支持长达 256K 上下文处理能力。0560大模型开源工具与社区# Agent 基座模型# 上下长文# 大语言模型
HappyHappy(Happy Coder)是开源的 AI 编程远程控制工具,用于从移动设备或网页控制本地运行的 Claude Code 或 Codex,支持实时同步、端到端加密、多会话与语音控制等功能。0650开源工具与社区最近收录AI# AI编程控制# 实时会话同步# 远程终端控制
ACE-Step 1.5ACE-Step 1.5 是一个开源 AI 音乐生成基础模型,采用混合架构支持快速生成整首音乐、歌词对齐、多语言支持及灵活编辑功能,输出结构化内容资产聚焦音乐生成能力、用例及用户指南。0590大模型开源工具与社区# ACE-Step 1.5# AI 音乐生成# 音乐生成基础模型
可灵3.0模型可灵3.0模型 是快手推出的新一代统一多模态AI创作模型,支持图像与视频生成、智能分镜、多语言音画同步等功能。0650大模型最近收录AI# AI图像生成# AI视频生成# Kling 3.0
Qwen3-Coder-NextQwen3-Coder-Next 是 Qwen 发布的开源编码大模型,采用稀疏 Mixture-of-Experts 设计与混合注意力结构,支持超长约 256K 上下文,面向 agentic 编码工作流、本地开发和多步骤工具调用,适用于复杂代码理解、调试和自动化修正任务。0680大模型最近收录AI# Agentic 编码# MoE# Qwen3-Coder-Next
CL-benchCL-bench 是由腾讯混元团队与复旦大学联合发布的上下文学习能力评估基准,旨在测量大语言模型从提供的上下文中实时学习并正确应用新知识的能力。CL-bench 包含数百个复杂场景与数千项任务,并通过严格的验证标准衡量模型的 Context 实时学习水平,是目前检测模型是否具备 Context 学习能力的重要评估工具。0630最近收录AI# CL-bench# Context 学习# 动态上下文理解
MiniCPM-o 4.5MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型(Vision + Language + Speech),具有实时语音对话、多模态实时流处理、视觉语义理解和 OCR 文档解析能力,适用于 AI 工具使用者在不同场景下进行端侧或服务器推理部署。0660大模型最近收录AI# MiniCPM-o 4.5# OCR# 多模态
UnifoLM-VLA-0UnifoLM-VLA-0 是宇树科技开源的视觉-语言-动作(VLA)通用机器人操作大模型,基于 Qwen2.5-VL-7B 架构并通过机器人操作数据持续预训练,实现文本指令与视觉信息融合用于空间理解与动作规划,可在仿真与真实机器人上完成多类复杂操作任务。0660大模型最近收录AI# UnifoLM-VLA-0# VLA# 多模态推理
Grok Imagine 1.0Grok Imagine 1.0 是 xAI(由 Elon Musk 支持的人工智能公司)推出的多模态生成系统,可基于自然语言提示生成图像或短视频,支持图像编辑、文本渲染、多种输出样式和格式,并集成原生音频,为创作者提供快速迭代的视觉内容制作能力。0670最近收录AI计算机视觉# AI 图像生成# AI 视频生成# Aurora 引擎
Skywork桌面版Skywork桌面版(Skywork Desktop)是昆仑天工推出的 Windows 原生 AI 办公助手,可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容,实现跨格式、跨模态的智能处理与自动化任务执行。0760内容创作数据分析与预测# AI Agent# Skywork桌面版# Windows 桌面助手
QoderWorkQoderWork 是 Qoder 推出的桌面 AI 代理工具,支持自然语言任务描述、自动规划复杂工作流程并在本地执行,包括文件整理、数据分析、文档生成等任务。QoderWork 强调隐私优先的本地处理与可扩展的 Skills 与 MCP 支持,适用于知识工作者、开发者和研究者等场景。01070最近收录AI自主智能系统# MCP 扩展# QoderWork# 任务自动化
SecondMe BookSecondMe Book 是一种 AI 分身社交平台模块,基于 Second Me 个性化 AI 始体系统支持用户创建代表自身思维与表达风格的 AI 代理,在社交网络社区中进行自主发帖、互动及讨论,同时真人用户可发帖与观察互动行为。0760最近收录AI自主智能系统# AI 代理# AI 分身# AI 社交网络
Vidu Q3Vidu Q3 是由生数科技(Shengshu Technology)推出的新一代 AI 视频生成模型,可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容,结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染,适用于短剧、广告、自媒体等多种视觉内容创作场景。0610大模型最近收录AI# AI 视频生成# Vidu Q3# 原生音频生成
MoltbookMoltbook 是一个为人工智能代理(AI agents)设计的社交网络平台,允许这些自主代理通过 API 形式发布帖子、评论和投票,并创建主题社区‘Submolts’。该平台模仿 Reddit 风格,但交互权限主要面向 AI 系统,旨在探索代理间协作、自治行为和AI生态互动模式。01010最近收录AI# AI Agents# AI 代理社交网络# OpenClaw 框架
Kimi CodeKimi Code 是 Kimi 平台提供的 AI 编程辅助工具,它旨在通过自然语言提示、视觉输入和集成开发环境插件辅助开发者完成代码生成、调试、重构、测试及工作流自动化,兼容终端 CLI 和主流 IDE,并通过 API 密钥集成到多种工具链中。0960最近收录AI编程工具# AI 编程助手# CLI# IDE 集成
ZopiaZopia 是一个 AI 短剧创作 Agent 平台,能够通过自然语言创意输入自动完成从剧本拆解、角色设计、分镜生成到视频合成的全链条制作流程,适合视频创作者与影视制作工作流自动化集成。关键词包括短剧 AI、分镜生成、视频合成与对话创作控制。0750内容创作最近收录AI# AI 短剧# Zopia# 分镜生成
Mureka V8Mureka V8 是一个由 Mureka 平台提供的 AI 音乐生成模型,基于 MusiCoT(Music Chain-of-Thought)技术,可从文本提示、歌词或参考音频生成完整的歌曲、伴奏及声乐,支持多语言输入和 API 集成,适用于内容创作、游戏配乐、音乐制作与企业应用。0730内容创作大模型# AI 音乐生成# Mureka V8# MusiCoT
MiniMax Music 2.5MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型,在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破,支持精细化控制音乐结构、声乐表现和混音策略,适用于专业音乐创作与生成工作流。0650大模型最近收录AI# AI 音乐生成# MiniMax Music 2.5# 段落级控制
MiniMax-M2-herMiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体,基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。0610大模型最近收录AI# Agentic 数据合成# MiniMax-M2-her# 上下文记忆
TensorRT LLMTensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行推理的性能与效率。该库为开发者提供高级 Python API、模块化运行时、可定制推理内核与多种优化策略,用于单机或集群级推理部署。0860开源工具与社区最近收录AI# NVIDIA GPU# NVIDIA 推理优化# TensorRT LLM
白虎-VTouch白虎-VTouch 是由国家地方共建人形机器人创新中心与纬钛机器人联合发布的跨本体视触觉多模态机器人操作数据集,包含视觉传感、触觉反馈与机器人关节位姿等多模态信息,数据规模超过 60000 分钟,旨在推动具身智能模型研发与机器人物理交互能力提升。0800最近收录AI# RGB-D# 关节位姿# 具身智能
Qwen3-Max-ThinkingQwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡推理质量与延迟。0910大模型最近收录AI# Alibaba AI# Qwen3-Max# 复杂推理
Kimi K2.5Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。0950大模型最近收录AI# Agent Swarm# 多模态模型# 并行任务执行
Vidu Q2参考生ProVidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。0810大模型最近收录AI# AI视频编辑# Vidu Q2参考生Pro# 人物表情迁移
DeepSeek-OCR 2DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/JSON),用于复杂文档的逻辑顺序转录与布局感知识别。0790大模型最近收录AI# Markdown 输出# OCR 模型# 复杂布局识别
LightOnOCR-2-1BLightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局类型。0910大模型最近收录AI# 图像检测# 多语言支持# 布局解析