功能类型

共 790 篇网址

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

自然语言处理（NLP）计算机视觉语音识别与生成数据分析与预测自动化与机器人智能推荐系统自主智能系统

排序

发布更新浏览点赞

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场景创作和商业级视觉资产生产。

01870

大模型最近收录AI # 4K输出 # AI图像生成 # 图像编辑

SecondMe Book

SecondMe Book 是一种 AI 分身社交平台模块，基于 Second Me 个性化 AI 始体系统支持用户创建代表自身思维与表达风格的 AI 代理，在社交网络社区中进行自主发帖、互动及讨论，同时真人用户可发帖与观察互动行为。

01840

最近收录AI 自主智能系统 # AI 代理 # AI 分身 # AI 社交网络

Xiaomi MiMo Studio

小米推出的在线 AI 聊天与推理平台。

01840

最近收录AI 自然语言处理（NLP）# AI聊天平台

TranslateGemma

TranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列，基于 Gemma 3 架构构建，支持 55 种语言的文本与图像内文字翻译，提供多种参数规模以适应不同部署场景。

01810

大模型开源工具与社区 # Gemma 3 # 图像内文字翻译 # 多语言翻译

UI-TARS Desktop

UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具，基于 UI-TARS 视觉语言模型（VLM），可通过自然语言控制计算机界面，实现图形界面识别与操作。

01770

大模型开源工具与社区 # 桌面 GUI Agent # 视觉语言模型（VLM）

Vidi2

Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型，支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成，是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。

01760

大模型开源工具与社区 # AI长视频处理

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型，支持多模态输入（视频与图片），用于生成高一致性、精细化的视频内容，涵盖人物、场景、动作与特效等创作需求。

01690

大模型最近收录AI # AI视频编辑 # Vidu Q2参考生Pro # 人物表情迁移

Skywork桌面版

Skywork桌面版（Skywork Desktop）是昆仑天工推出的 Windows 原生 AI 办公助手，可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容，实现跨格式、跨模态的智能处理与自动化任务执行。

01670

内容创作数据分析与预测 # AI Agent # Skywork桌面版 # Windows 桌面助手

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容，结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染，适用于短剧、广告、自媒体等多种视觉内容创作场景。

01630

大模型最近收录AI # AI 视频生成 # Vidu Q3 # 原生音频生成

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别（ASR）模型，支持单次处理最长约 60 分钟连续音频，并输出包含说话者标识、时间戳与转录文本的结构化结果，适用于会议、讲座、播客等长音频语音识别场景。

01610

最近收录AI 语音识别与生成 # 时间戳 # 热词识别 # 结构化转录

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力，并提供开源权重与企业部署选项。

01580

大模型开源工具与社区 # 多语言支持 # 实时转录 # 语音转写

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染、多种输出样式和格式，并集成原生音频，为创作者提供快速迭代的视觉内容制作能力。

01470

最近收录AI 计算机视觉 # AI 图像生成 # AI 视频生成 # Aurora 引擎

AI大学堂