dhxiaoheiyun

应无所住，而生其心。

文章12 网址2543 书籍8 软件83 评论0

Seedance 1.5 Pro

字节跳动 Seed 团队最新发布的音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持，为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。

02070

内容创作大模型 # AI情感短片视频生成 # AI视频生成 # 音视频联合生成模型

万相2.6

阿里通义万相最新发布的视频生成 AI 模型，支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步，为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。

02630

大模型最近收录AI # AI数字人 # AI虚拟角色 # AI视频生成模型

LightX2V

一个轻量级、高性能的视频生成推理框架。

03020

内容创作最近收录AI # AI视频生成 # 图像生成视频 # 文本生成视频

Disco

Google 最新推出的实验性 AI 浏览体验，该工具由Gemini 3 大模型驱动，通过自动将浏览器标签页转化为交互式 Web 应用（称为 GenTabs），重新定义浏览器与 AI 协作体验。本文面向 AI 工具使用者详细介绍其核心功能、使用方式、优势与常见问题。

02230

最近收录AI 自主智能系统 # AI浏览器

UnityVideo

一个面向 AI 研究与工具使用者的多模态、多任务视频生成框架，通过统一视觉模态（例如深度、光流、骨骼和分割掩码等）与训练范式，显著提升 AI 视频合成的质量、一致性与现实世界对齐能力。本文深度介绍 UnityVideo 的原理、技术构成、应用场景与常见问题解答。

02950

最近收录AI 框架与库 # AI视频生成框架

Nemotron 3

NVIDIA 最新发布的开放 AI 模型家族，覆盖 Nano、Super 和 Ultra 版本，通过突破性混合专家架构（hybrid Mixture-of-Experts）实现高推理效率与长上下文处理能力，是构建多代理智能系统与复杂推理任务的开源基础模型解决方案。本文针对 AI 工具使用者系统介绍其架构、性能、应用场景与常见问题解答。

02710

企业用户最近收录AI # 开放 AI 模型家族

Banana Slides

一个基于 nano banana pro 强大模型的开源 AI PPT 生成工具，它如何通过自然语言驱动、文件解析与素材上传等机制实现高质量、定制化的演示文稿自动生成，适用于个人用户与开发者场景。本文系统梳理核心功能、技术架构、使用方法与常见问题。

02530

最近收录AI 计算机视觉 # AI PPT 生成工具

Mulan

一款基于 AI 的创新视频创作平台，包括其核心功能、产品优势、使用指南与用户常见问题解答。

02140

内容创作最近收录AI # AI视频创作 # AI视频生成平台

Claude-Mem

Claude-Mem 是一个专为 Claude Code 设计的开源持久记忆插件，通过自动捕获 AI 会话中的上下文、工具调用和观察，并将经 AI 压缩与结构化后的关键信息注入未来会话，实现跨会话记忆持续、语义搜索与自然语言历史检索等功能，大幅提升长期项目协作体验。

02170

开源工具与社区最近收录AI

Open Screen

OpenScreen 是一款免费、开源的屏幕录制与演示制作工具，作为 Screen Studio 的简洁替代方案，支持全屏及指定窗口录制、手动缩放效果、画面裁剪、注释添加及背景定制等功能，帮助创作者快速制作高质量教程、产品演示与教学视频。

02100

开源工具与社区最近收录AI # AI屏幕录制工具

Gemini TTS

Gemini TTS 是 Google 最新的文本转语音（Text-to-Speech）技术，通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制，并可用于播客、课程、辅助工具与互动应用等场景。

02060

API与SDK 内容创作 # AI语音合成 # 多语言支持 # 文本转语音

GWM-1

GWM-1 是由 Runway 发布的首个通用世界模型（General World Model），基于 Gen-4.5 架构，通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支，适用于交互式世界构建、机器人训练与数字人生成等领域。

01860

大模型最近收录AI # 世界模型

AI大学堂