dhxiaoheiyun

应无所住,而生其心。
Mureka V8

Mureka V8

Mureka V8 是一个由 Mureka 平台提供的 AI 音乐生成模型,基于 MusiCoT(Music Chain-of-Thought)技术,可从文本提示、歌词或参考音频生成完整的歌曲、伴奏及声乐,支持多语言输入和 API 集成,适用于内容创作、游戏配乐、音乐制作与企业应用。
0730
MiniMax Music 2.5

MiniMax Music 2.5

MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型,在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破,支持精细化控制音乐结构、声乐表现和混音策略,适用于专业音乐创作与生成工作流。
0670
MiniMax-M2-her

MiniMax-M2-her

MiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体,基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。
0610
TensorRT LLM

TensorRT LLM

TensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行推理的性能与效率。该库为开发者提供高级 Python API、模块化运行时、可定制推理内核与多种优化策略,用于单机或集群级推理部署。
0880
白虎-VTouch

白虎-VTouch

白虎-VTouch 是由国家地方共建人形机器人创新中心与纬钛机器人联合发布的跨本体视触觉多模态机器人操作数据集,包含视觉传感、触觉反馈与机器人关节位姿等多模态信息,数据规模超过 60000 分钟,旨在推动具身智能模型研发与机器人物理交互能力提升。
0800
Qwen3-Max-Thinking

Qwen3-Max-Thinking

Qwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡推理质量与延迟。
0930
Kimi K2.5

Kimi K2.5

Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。
0960
Vidu Q2参考生Pro

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。
0830
DeepSeek-OCR 2

DeepSeek-OCR 2

DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/JSON),用于复杂文档的逻辑顺序转录与布局感知识别。
0800
LightOnOCR-2-1B

LightOnOCR-2-1B

LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局类型。
0930
VibeVoice-ASR

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。
0790
Agentation

Agentation

Agentation 是一个开源前端开发辅助工具,通过可视化标注网页元素并生成结构化 Markdown 反馈,使 AI 编程助手(如 Claude Code、Cursor)能够准确定位代码中的对应组件或元素位置。
0900