dhxiaoheiyun

应无所住,而生其心。
Seedance 1.5 Pro

Seedance 1.5 Pro

字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。
02070
万相2.6

万相2.6

阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。
02630
LightX2V

LightX2V

一个轻量级、高性能的视频生成推理框架。
03020
Disco

Disco

Google 最新推出的实验性 AI 浏览体验,该工具由Gemini 3 大模型驱动,通过自动将浏览器标签页转化为交互式 Web 应用(称为 GenTabs),重新定义浏览器与 AI 协作体验。本文面向 AI 工具使用者详细介绍其核心功能、使用方式、优势与常见问题。
02230
UnityVideo

UnityVideo

一个面向 AI 研究与工具使用者的多模态、多任务视频生成框架,通过统一视觉模态(例如深度、光流、骨骼和分割掩码等)与训练范式,显著提升 AI 视频合成的质量、一致性与现实世界对齐能力。本文深度介绍 UnityVideo 的原理、技术构成、应用场景与常见问题解答。
02950
Nemotron 3

Nemotron 3

NVIDIA 最新发布的开放 AI 模型家族,覆盖 Nano、Super 和 Ultra 版本,通过突破性混合专家架构(hybrid Mixture-of-Experts)实现高推理效率与长上下文处理能力,是构建多代理智能系统与复杂推理任务的开源基础模型解决方案。本文针对 AI 工具使用者系统介绍其架构、性能、应用场景与常见问题解答。
02710
Banana Slides

Banana Slides

一个基于 nano banana pro 强大模型的开源 AI PPT 生成工具,它如何通过自然语言驱动、文件解析与素材上传等机制实现高质量、定制化的演示文稿自动生成,适用于个人用户与开发者场景。本文系统梳理核心功能、技术架构、使用方法与常见问题。
02530
Mulan

Mulan

一款基于 AI 的创新视频创作平台,包括其核心功能、产品优势、使用指南与用户常见问题解答。
02140
Claude-Mem

Claude-Mem

Claude-Mem 是一个专为 Claude Code 设计的开源持久记忆插件,通过自动捕获 AI 会话中的上下文、工具调用和观察,并将经 AI 压缩与结构化后的关键信息注入未来会话,实现跨会话记忆持续、语义搜索与自然语言历史检索等功能,大幅提升长期项目协作体验。
02170
Open Screen

Open Screen

OpenScreen 是一款免费、开源的屏幕录制与演示制作工具,作为 Screen Studio 的简洁替代方案,支持全屏及指定窗口录制、手动缩放效果、画面裁剪、注释添加及背景定制等功能,帮助创作者快速制作高质量教程、产品演示与教学视频。
02100
Gemini TTS

Gemini TTS

Gemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。
02060
GWM-1

GWM-1

GWM-1 是由 Runway 发布的首个通用世界模型(General World Model),基于 Gen-4.5 架构,通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支,适用于交互式世界构建、机器人训练与数字人生成等领域。
01860