// 01 Lingshu 是什么
Lingshu是由 Alibaba DAMO Academy 于 2025 年 6 月发布的通用医疗多模态基础模型,融合了医学图像理解与语言推理于一体。作为开源项目,Lingshu 附带 MedEvalKit 评估工具包,为学术和产业界提供统一、标准的多模态与文本医疗任务评估框架。其目标是打通医学影像、临床文本与诊断逻辑理解,提供具备实用价值的医疗 AI 工具。
Lingshu 的核心特性
多模态医疗理解
Lingshu 支持超过 12 种医学影像类型,包括 X-Ray、CT、MRI、超声、显微镜、组织病理、眼底图、内镜、PET 等。这种跨模态能力使其能够处理复杂的临床场景,体现出高度通用性与鲁棒性。
自然语言问答与推理
除了图像理解,Lingshu 在 MedQA、PubMedQA、USMLE 等文本医疗问答基准上也表现强劲。基于多阶段训练和数据蒸馏,其推理能力逐步接近甚至超越部分大型闭源模型。
报告生成
在 MIMIC-CXR、CheXpert Plus、IU-Xray 等医学报告生成标准任务中,Lingshu 显著提高生成质量(如 ROUGE、CIDEr 等指标),生成报告准确、结构合理。
开源与开源评估框架
项目同步发布 MedEvalKit 工具,可复现评估流程,包含主流多模态和文本任务,有助科研团队进行公平对比。
Lingshu 技术架构与训练方法
多阶段训练流程
Lingshu 采用逐步训练方法:
Medical Shallow Alignment(浅度对齐):仅微调图像编码器;
Medical Deep Alignment(深度对齐):联合微调整个语言模型;
Instruction Tuning(指令调优):强化指令理解与任务适应性;
部分版本还采用 RLVR(具有可验证奖励的强化学习)以提升推理质量。
数据蒸馏与合成
Lingshu 团队利用 GPT‑4o 生成长文本描述、VQA 标注与逐步推理过程(Chain-of-Thought),构造了约 1.3M 人工合成样本,并严控质量与去重。
MedEvalKit 评估体系
MedEvalKit 涵盖 20+ 数据集,包括多模态 QA(如 MMMU‑Exam、PATH-VQA)和文本 QA(MedQA-USMLE、PubMedQA 等)标准,为模型提供统一评估路径。
Lingshu 模型表现对比
Lingshu‑7B(7亿参数)
在开源低参数模型中,Lingshu‑7B 在多模态 QA 基准中取得最高平均分,尤其在 PathVQA、IU X-Ray、MedXpertQA 等任务中领先。
Lingshu‑32B(32亿参数)
较 7B 更大版本,Lingshu‑32B 在多模态问答和医学报告生成上全面领先,包括超过 GPT‑4.1 和 Claude Sonnet 4 等商业模型。
在多模态 QA 中平均表现优于 GPT‑4.1;
在文本 QA 中与闭源模型接近;
报告生成上 IU‑Xray 指标近两倍提升。
Lingshu 的应用场景
医学研究与学术探索
Lingshu 和 MedEvalKit 可作为科研者评估新模型的对标标准,支持快速对比研究结果。
临床辅助与护理
通过实现图像初筛、问答辅诊、报告批注等功能,可用于辅助医生减轻重复工作。
医学教育与培训
适用于医学学生与实习生的模拟问答、案例教学、影像讲解与培训系统。
医疗软件与SaaS集成
可接入 PACS、电子病历系统,为医疗 SaaS 产品提供 AI 模块支持。
开源价值与未来发展路径
专为医疗设计
Lingshu 专注于临床场景数据训练(如多模态医学影像、临床文本、推理流程),具医学背景适应性。
社区共建与版本优化
作为 DAMO Academy 开源项目,社区可参与贡献数据集、任务类型与工具链,形成持续演进机制。
通用-专用模型结合
未来可扩展至更大规模参数、加入神经符号推理(NeSy)和强化学习深入优化,以应对更复杂医疗场景 。
// 02 核心 功能
- 核心定位Lingshu 是阿里巴巴达摩院开源的医疗多模态大模型,支持 12+ 医学影像类型、自然语言问答、报告生成,提供 MedEvalKit 统一评估框架,以超越 GPT-4.1 的表现推动医疗 AI 研究与落地。
- 分类索引当前归档在 AI 生活,方便和同频工具横向比较。
- 能力标签关联标签包括 price-open-source、industry-medical。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 生活 定位和 price-open-source、industry-medical 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
