// 01 LinGen 是什么
LinGen 是最新一代文本到视频生成模型框架,以“MATE 模块”(包含 MA-branch 和 TE‑branch)替换传统的自注意力机制,实现生成高质量、1 分钟以上高分辨率视频,同时将计算复杂度从平方级下降到线性级。这一突破适合 AI 工具使用者与内容创作者关注与尝试。
LinGen 的背景与创新
现代文本生成视频依赖于复杂的 Diffusion Transformers(DiT),但其计算量随着像素数量平方增长,生成高分辨率与长视频成本昂贵,通常仅能处理 10–20 秒视频。LinGen 全新设计,将自注意力替换为线性复杂度的 MATE 模块,首次实现单 GPU 上生成高分辨率、分钟级(如 68 秒)视频而不牺牲画质。
MATE 模块详解
MA-branch(Mamba + Rotary + Review Token)
MA‑branch 包含 bidirectional Mamba2、Rotary Major Scan(RMS)与 Review tokens 等机制:
Mamba2 处理短到长距离关联;
RMS 将 3D 视频 tokens 以不同扫描方式转换为序列,解决相邻丢失问题;
Review tokens 提供长距离上下文校准。
TE-branch(Temporal Swin Attention)
TE‑branch 聚焦时空邻接关系,使用 Swin Attention 风格,补充 MA‑branch 对中程时间关系的处理,提升视频连贯性。
效率与效果表现
LinGen 在 512p 分辨率下生成分钟级视频时,相比 DiT 提供高达 15× FLOPs 和 11.5× 延迟减少,同时在人类评估中保持或超越现有顶尖模型(如 Gen‑3、LumaLabs、Kling)。
使用场景与价值
长视频生成:如教程、广告或短片预览,生成时间扩展到 1 分钟,获得高质量内容。
实时交互视频:潜力应用于游戏场景、AR/VR 和互动影视内容制作。
单 GPU 项目落地:无需集群,也能执行高阶视频生成项目。
如何使用 LinGen
1.浏览 CVPR 世上官方网站或 GitHub 仓库获取示例与 Demo。
2.配置 PyTorch(≥1.13+cu11.7)与依赖,并替换 PixArt 模型中的自注意力为 MATE 模块。
3.使用文本提示生成视频,设置时长、分辨率与内容类型。
4.实验效果并对比传统 DiT 生成耗时与画质。
