计算机视觉

共 364 篇网址

探索最前沿的计算机视觉 AI 工具，涵盖图像识别、目标检测、图像分割、姿态估计、OCR 等核心技术。AI工具导航平台汇聚国内外优质的计算机视觉应用与开源项目，助力开发者、研究者和企业高效构建视觉智能系统。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

可灵O1

可灵O1 是由可灵AI 发布的全球首款统一多模态视频生成大模型，支持图片、视频与文字混合输入，实现从文生图／文生视频／图生视频到视频编辑的一站式创作流程，适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。

02260

大模型最近收录AI # AI图像生成 # AI视频创作工具 # AI视频创作平台

Mulan

一款基于 AI 的创新视频创作平台，包括其核心功能、产品优势、使用指南与用户常见问题解答。

02140

内容创作最近收录AI # AI视频创作 # AI视频生成平台

FLUX.2 [klein]

FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族，支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能，适用于研究、开发和交互式视觉智能应用。

02100

大模型开源工具与社区 # 低延迟推理 # 多参考图像支持 # 实时图像生成

Seedance 1.5 Pro

字节跳动 Seed 团队最新发布的音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持，为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。

02060

内容创作大模型 # AI情感短片视频生成 # AI视频生成 # 音视频联合生成模型

Vidu Agent

Vidu 团队推出的 AI 视频创作智能体平台，通过“一键成片”技术与自动分镜编排，实现从视觉输入到成品输出的全流程视频生成，适用于广告、产品展示、短片与创意视频等多种场景。

02000

内容创作最近收录AI # AI分镜编辑 # AI视频创作智能体平台 # AI视频生成工具

Bandy AI

什么是 Bandy AI Bandy AI 是一款专注于电...

01990

最近收录AI 计算机视觉 # 电商AI agent

FLUX.2

FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型，支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性，适合设计师、营销、产品可视化和创意团队进行专业级图像创作。

01980

内容创作大模型 # AI图像模型 # AI图像编辑 # 文生图像

Temvideo.ai

Temvideo.ai 是一款面向电商、内容创作者与品牌商的 AI 视频生成 /编辑平台，通过 AI-agent 和模板机制，将图片、脚本或产品素材自动生成广告视频、产品展示、社交媒体短视频等，大幅节省剪辑与制作时间，适合电商卖家、内容创作者、跨境品牌快速输出优质视频。

01940

内容创作最近收录AI # AI 视频 Agent # AI电商助手 # AI视频智能体

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场景创作和商业级视觉资产生产。

01820

大模型最近收录AI # 4K输出 # AI图像生成 # 图像编辑

UI-TARS Desktop

UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具，基于 UI-TARS 视觉语言模型（VLM），可通过自然语言控制计算机界面，实现图形界面识别与操作。

01720

大模型开源工具与社区 # 桌面 GUI Agent # 视觉语言模型（VLM）

Vidi2

Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型，支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成，是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。

01720

大模型开源工具与社区 # AI长视频处理

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型，支持多模态输入（视频与图片），用于生成高一致性、精细化的视频内容，涵盖人物、场景、动作与特效等创作需求。

01640

大模型最近收录AI # AI视频编辑 # Vidu Q2参考生Pro # 人物表情迁移

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容，结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染，适用于短剧、广告、自媒体等多种视觉内容创作场景。

01550

大模型最近收录AI # AI 视频生成 # Vidu Q3 # 原生音频生成

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染、多种输出样式和格式，并集成原生音频，为创作者提供快速迭代的视觉内容制作能力。

01420

最近收录AI 计算机视觉 # AI 图像生成 # AI 视频生成 # Aurora 引擎

AI大学堂