计算机视觉

共 364 篇网址

探索最前沿的计算机视觉 AI 工具，涵盖图像识别、目标检测、图像分割、姿态估计、OCR 等核心技术。AI工具导航平台汇聚国内外优质的计算机视觉应用与开源项目，助力开发者、研究者和企业高效构建视觉智能系统。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

‎Gemini

Gemini代表了Google在AI领域的最新突破，通过其多模式处理和高级推理能力，为用户和开发者提供了强大的工具和平台，以实现创新和效率的提升。

01,8408

AI热门产品自然语言处理（NLP）# AI内容生成器 # AI增强产品 # ‎Gemini

Medeo

AI在线视频创作与编辑平台。

08321

最近收录AI 计算机视觉 # AI内容创作 # AI动画故事 # AI视频剪辑

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场景创作和商业级视觉资产生产。

0650

大模型最近收录AI # 4K输出 # AI图像生成 # 图像编辑

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频，适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。

01610

大模型最近收录AI # 1080p高清视频 # AI视频生成 # 多镜头叙事

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染、多种输出样式和格式，并集成原生音频，为创作者提供快速迭代的视觉内容制作能力。

0670

最近收录AI 计算机视觉 # AI 图像生成 # AI 视频生成 # Aurora 引擎

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容，结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染，适用于短剧、广告、自媒体等多种视觉内容创作场景。

0610

大模型最近收录AI # AI 视频生成 # Vidu Q3 # 原生音频生成

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型，支持多模态输入（视频与图片），用于生成高一致性、精细化的视频内容，涵盖人物、场景、动作与特效等创作需求。

0810

大模型最近收录AI # AI视频编辑 # Vidu Q2参考生Pro # 人物表情迁移

FLUX.2 [klein]

FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族，支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能，适用于研究、开发和交互式视觉智能应用。

01230

大模型开源工具与社区 # 低延迟推理 # 多参考图像支持 # 实时图像生成

UI-TARS Desktop

UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具，基于 UI-TARS 视觉语言模型（VLM），可通过自然语言控制计算机界面，实现图形界面识别与操作。

01060

大模型开源工具与社区 # 桌面 GUI Agent # 视觉语言模型（VLM）

Vidu Agent

Vidu 团队推出的 AI 视频创作智能体平台，通过“一键成片”技术与自动分镜编排，实现从视觉输入到成品输出的全流程视频生成，适用于广告、产品展示、短片与创意视频等多种场景。

01200

内容创作最近收录AI # AI分镜编辑 # AI视频创作智能体平台 # AI视频生成工具

NitroGen

一个全新的视觉-动作基础模型（Vision-Action Foundation Model），由 NVIDIA 等机构联合研发并开源，专注于通用游戏智能体的学习与控制。

01420

大模型最近收录AI # AI游戏开发 # AI视觉编码器

MovieFlow

MovieFlow 是一款基于人工智能的全自动视频创作与影片生成平台，它能够将用户的故事描述、剧本或简单提示转化为完整的高质量视频作品。

01250

最近收录AI 计算机视觉 # AI 视频创作平台

Qwen-Image-Layered

由 Qwen 团队开发的图像分层 AI 模型，可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层，实现类似专业图像编辑软件的分层操作。

01390

大模型开源工具与社区 # 图像分层模型

GeminiGen AI

一个基于先进人工智能的多模态内容生成平台。

01530

内容创作教育与学习 # AI 图像生成 # AI 视频生成 # AI 语音生成

Bandy AI

什么是 Bandy AI Bandy AI 是一款专注于电...

01250

最近收录AI 计算机视觉 # 电商AI agent

VTP

MiniMax-AI 海螺视频团队开源的 Visual Tokenizer Pre-training 视觉生成模型预训练框架。

01660

内容创作最近收录AI # AI图像生成

Kairos 3.0

大晓机器人推出的开源世界模型，专为具身智能、机器人环境理解与动态预测设计。

01610

大模型开源工具与社区 # 世界模型 # 图像转视频 # 文本转视频

SHARP

苹果推出的开源单目视图 3D 场景合成模型。

01540

内容创作大模型 # AI 3D渲染

GPT Image 1.5

OpenAI 发布的最新图像生成与编辑 AI 模型，作为 ChatGPT Images 的核心引擎，它以最高达 4× 更快的生成速度、更强的指令执行力、精细细节保留与创意转换能力为特性，支持创意图像生成、照片编辑与视觉工作流自动化。

01350

内容创作大模型 # AI图像生成模型 # AI图像编辑模型 # 文本生成图像

Live Avatar

一个面向 AI 工具使用者的先进实时音频驱动交互式头像生成系统。

01600

大模型最近收录AI # AI视频生成 # AI视频通话

Seedance 1.5 Pro

字节跳动 Seed 团队最新发布的音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持，为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。

01320

内容创作大模型 # AI情感短片视频生成 # AI视频生成 # 音视频联合生成模型

万相2.6

阿里通义万相最新发布的视频生成 AI 模型，支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步，为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。

01580

大模型最近收录AI # AI数字人 # AI虚拟角色 # AI视频生成模型

LightX2V

一个轻量级、高性能的视频生成推理框架。

01760

内容创作最近收录AI # AI视频生成 # 图像生成视频 # 文本生成视频

Banana Slides

一个基于 nano banana pro 强大模型的开源 AI PPT 生成工具，它如何通过自然语言驱动、文件解析与素材上传等机制实现高质量、定制化的演示文稿自动生成，适用于个人用户与开发者场景。本文系统梳理核心功能、技术架构、使用方法与常见问题。

01590

最近收录AI 计算机视觉 # AI PPT 生成工具

Mulan

一款基于 AI 的创新视频创作平台，包括其核心功能、产品优势、使用指南与用户常见问题解答。

01290

内容创作最近收录AI # AI视频创作 # AI视频生成平台

PosterCopilot

PosterCopilot 是由南京大学、LibLib.ai 与中国科学院自动化所联合推出的 AI 海报设计框架，通过布局推理、审美强化学习与分层可控编辑，为专业海报布局和设计流程提供自动化与迭代式编辑能力，适合设计师、营销人员与创意团队使用。

01570

开源工具与社区最近收录AI # AI海报设计 # AI视觉艺术

Questas

Questas 是一款 AI 驱动的互动故事与多媒体内容生成平台，允许用户通过文字提示快速生成图像与视频，并构建“分支／选择你的冒险 (choose-your-own-adventure)”式的互动故事。适合创作者、教育者、游戏设计师、小团队与内容运营者，无需编程或美术基础，即可打造沉浸式故事体验。

01880

内容创作娱乐媒体 # AI视频生成工具 # 故事编辑器 # 文生图

Vora

Vora 是一个由 Fineshare 提供的 AI 视频生成与编辑平台，支持将文本提示或图片转换为高清、无水印、带配音的视频，也支持提示词生成、视频增强与水印移除，是内容创作者、电商卖家、营销人员、社交媒体运营者制作短视频与广告视频的便捷工具。

01580

内容创作最近收录AI # AI视频内容创作 # AI视频增强 # AI视频生成工具

可灵O1

可灵O1 是由可灵AI 发布的全球首款统一多模态视频生成大模型，支持图片、视频与文字混合输入，实现从文生图／文生视频／图生视频到视频编辑的一站式创作流程，适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。

01540

大模型最近收录AI # AI图像生成 # AI视频创作工具 # AI视频创作平台

Vidi2

Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型，支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成，是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。

01090

大模型开源工具与社区 # AI长视频处理

Temvideo.ai

Temvideo.ai 是一款面向电商、内容创作者与品牌商的 AI 视频生成 /编辑平台，通过 AI-agent 和模板机制，将图片、脚本或产品素材自动生成广告视频、产品展示、社交媒体短视频等，大幅节省剪辑与制作时间，适合电商卖家、内容创作者、跨境品牌快速输出优质视频。

01330

内容创作最近收录AI # AI 视频 Agent # AI电商助手 # AI视频智能体

Depth Anything 3

Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型，可从任意数量与任意视角的图像／视频输入中恢复空间一致的 3D 几何结构，包括深度图、相机位姿、三维点云与新视图合成，非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。

01760

内容创作大模型 # AI 3D艺术

Z-Image

Z-Image 是阿里通义 (Tongyi MAI) 发布的高效 6 B 图像生成与编辑基础模型，支持高逼真度渲染、中英双语文本、低资源运行与快速推理，为创作者、设计师和开发者提供了兼顾质量与效率的开放图像生成方案。

01490

大模型开源工具与社区 # AI图像生成模型 # AI图像编辑模型 # 文生图

FLUX.2

FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型，支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性，适合设计师、营销、产品可视化和创意团队进行专业级图像创作。

01300

内容创作大模型 # AI图像模型 # AI图像编辑 # 文生图像

Lumine

Lumine 是一个面向 3D 开放世界游戏的通用智能体 (generalist agent)，由字节跳动（Bytedance）Seed 团队提出。它基于视觉-语言模型 (VLM)，能实时感知、推理与执行复杂任务，并在多款游戏中展示强大的跨游戏泛化能力。

01,0420

最近收录AI 自主智能系统 # AI游戏助手 # 元宇宙 # 虚拟世界

OiiOii

OiiOii 是一款面向创作者与普通用户的 AI 动画代理工具，旨在将你的想象通过图像、文字提示快速生成动画或短片。

03810

内容创作娱乐媒体 # AI动画代理 # AI动画生成工具 # AI故事生成工具

LONGLIVE

LONGLIVE 是由 NVlabs 推出的创新型 AI 技术项目，旨在通过先进的深度学习与生成算法，为长视频生成、内容复原与高质量视频处理提供强大支持。

03440

最近收录AI 计算机视觉 # 视频生成技术

Sora 2

Sora 2 是一款由 OpenAI 推出的全新 AI 工具，支持文本生成视频、实时交互、可编排场景等强大功能。

04110

内容创作最近收录AI # 文生视频 # 视频生成

Keevx

让 AI 驱动视频制作更高效——探索 Keevx 的 AI 化身技术、脚本自动生成与多语言支持，助力内容创作者、教育者和市场营销者轻松制作专业视频。

01,8910

AI热门产品计算机视觉 # AI视频生成器 # AI视频生成工具

Clueso

Clueso 是一款面向屏幕录制者的 AI 平台，可将录制内容自动转换为高质量产品视频与操作文档，支持多语言、本地协作与品牌定制，适合 AI 工具使用者快速生产培训与演示内容。

03130

最近收录AI 计算机视觉 # AI屏幕录制转视频 # AI视频生成 # 多语言支持

Memories.ai

Memories.ai 是首个面向长时段视频记忆的 AI 平台，支持对视频内容进行语义检索、视频对话、剪辑创作与趋势分析，适合 AI 工具使用者管理与分析海量视频内容。

06540

最近收录AI 计算机视觉 # AI持久视觉记忆能力 # AI视频创作 # AI视频营销Agent

OpenCreator

OpenCreator 是一款为内容创作者打造的统一 Gen‑AI 工作平台，集成多种生成模型与工作流模板，支持从剧本生成视频、图像、歌词 MV 和视觉特效等 AI 内容创作任务，适合 AI 工具使用者提高创作效率。

05520

最近收录AI 计算机视觉 # AI内容创作 # 多样化 AI 工作流模板 # 集成化 Gen‑AI 创作工具

Pic Answer

Pic Answer 是一款 AI 驱动的图像问答助学工具，支持拍照识题、对话式解析和多学科覆盖，适合 AI 工具使用者轻松获取问题解答与思路解析。

02300

教育与学习最近收录AI # AI学习助手

CatchMe

CatchMe 是一款 AI 内容鉴别平台，支持在线检测图像、视频和音频是否由 AI 生成，有效应对换脸、换声诈骗和深伪内容风险，适合 AI 工具使用者保障内容真伪安全。

03890

最近收录AI 计算机视觉 # AI内容检测工具 # AI图像鉴伪 # AI视频真实性检测

MirageLSD

MirageLSD 是 Decart 推出的首个实时流式扩散 AI 视频模型，支持无延迟、实时且可无限生成的视频流变形，适用于直播、视频通话和游戏等场景。

04090

大模型最近收录AI # AI内容创作 # AI游戏画面风格强化 # 流式扩散视频模型

BytePlus

BytePlus是字节跳动旗下 AI 平台，为开发者和企业提供图像生成、语音识别、推荐系统、增强现实等一站式 AI 能力，适合 AI 工具使用者构建复杂智能应用。

04690

API与SDK 企业用户 # AI图像生成 # AI视觉增强 # 全栈AI服务

SendShort

SendShort 是一款面向 AI 工具使用者的短视频自动化生成平台，通过一键剪辑、配字幕、配音、音轨、B-roll 和多语言翻译，助力内容创作者高效制作并发布视频短片。

03390

最近收录AI 计算机视觉 # AI短视频内容创作 # AI配音生成 # 多语言翻译

RoboBrain2.0

RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”，融合视觉、语言与交互推理，支持 7B/32B 模型，对各种实体任务进行空间、时间规划与闭环反馈，适合 AI 工具使用者快速集成机器人认知能力。

03380

大模型开源工具与社区 # 机器人视觉-语言大模型

万象驭影

万象驭影是北京矩阵像素科技推出的多模态 AI 视频创作平台，整合多智能体与跨模态技术，支持批量剪辑、精细剪辑与一站式投放，面向企业营销与内容创作者优化视频产能与成本。

03620

最近收录AI 计算机视觉 # AI视频制作 # AI视频剪辑 # 多模态智能视频创作平台

Hunyuan3D‑PolyGen

Hunyuan3D‑PolyGen 是腾讯混元3D系列的最新旗舰级模型，以生产级“Art‑Grade”网格拓扑为目标，支持三角/四边形网格、高压缩编码与自动重拓扑，能减少 70% 制作时间、提升 35% 拓扑整洁度，是游戏开发者与 3D 艺术师的创作助力。

03790

API与SDK 大模型 # AI 3D艺术设计 # AI游戏开发

AI大学堂