dhxiaoheiyun

应无所住,而生其心。
TensorRT LLM

TensorRT LLM

TensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行推理的性能与效率。该库为开发者提供高级 Python API、模块化运行时、可定制推理内核与多种优化策略,用于单机或集群级推理部署。
050
白虎-VTouch

白虎-VTouch

白虎-VTouch 是由国家地方共建人形机器人创新中心与纬钛机器人联合发布的跨本体视触觉多模态机器人操作数据集,包含视觉传感、触觉反馈与机器人关节位姿等多模态信息,数据规模超过 60000 分钟,旨在推动具身智能模型研发与机器人物理交互能力提升。
040
Qwen3-Max-Thinking

Qwen3-Max-Thinking

Qwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡推理质量与延迟。
090
Kimi K2.5

Kimi K2.5

Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。
050
Vidu Q2参考生Pro

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。
060
DeepSeek-OCR 2

DeepSeek-OCR 2

DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/JSON),用于复杂文档的逻辑顺序转录与布局感知识别。
040
LightOnOCR-2-1B

LightOnOCR-2-1B

LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局类型。
0100
VibeVoice-ASR

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。
090
Agentation

Agentation

Agentation 是一个开源前端开发辅助工具,通过可视化标注网页元素并生成结构化 Markdown 反馈,使 AI 编程助手(如 Claude Code、Cursor)能够准确定位代码中的对应组件或元素位置。
0100
Clawdbot

Clawdbot

Clawdbot 是开源的自托管 AI 助手与智能代理系统,可在本地运行并与 WhatsApp、Telegram、Discord、Signal、iMessage 等通信平台集成,支持消息响应、自动化任务执行、持久上下文记忆与扩展技能安装。
0110
Prompt Manager

Prompt Manager

Prompt Manager(PromptX)是一个开源提示词管理与版本控制工具,支持提示词的创建、分类、全局搜索及版本历史对比。PromptX 提供个人提示词库、公共模板库及社区评分机制,用于增强提示词的组织与复用能力。
0150
Dokie

Dokie

Dokie 是一款基于人工智能的演示文稿生成与编辑工具,支持从文本大纲、文档或链接自动创建结构化幻灯片,并提供内容调整与导出功能,适用于商业和教育场景的演示开发。
0170