Lingshu是由 Alibaba DAMO Academy 于 2025 年 6 月发布的通用医疗多模态基础模型,融合了医学图像理解与语言推理于一体。作为开源项目,Lingshu 附带 MedEvalKit 评估工具包,为学术和产业界提供统一、标准的多模态与文本医疗任务评估框架。其目标是打通医学影像、临床文本与诊断逻辑理解,提供具备实用价值的医疗 AI 工具。
Lingshu 的核心特性
多模态医疗理解
Lingshu 支持超过 12 种医学影像类型,包括 X-Ray、CT、MRI、超声、显微镜、组织病理、眼底图、内镜、PET 等。这种跨模态能力使其能够处理复杂的临床场景,体现出高度通用性与鲁棒性。
自然语言问答与推理
除了图像理解,Lingshu 在 MedQA、PubMedQA、USMLE 等文本医疗问答基准上也表现强劲。基于多阶段训练和数据蒸馏,其推理能力逐步接近甚至超越部分大型闭源模型。
报告生成
在 MIMIC-CXR、CheXpert Plus、IU-Xray 等医学报告生成标准任务中,Lingshu 显著提高生成质量(如 ROUGE、CIDEr 等指标),生成报告准确、结构合理。
开源与开源评估框架
项目同步发布 MedEvalKit 工具,可复现评估流程,包含主流多模态和文本任务,有助科研团队进行公平对比。
Lingshu 技术架构与训练方法
多阶段训练流程
Lingshu 采用逐步训练方法:
Medical Shallow Alignment(浅度对齐):仅微调图像编码器;
Medical Deep Alignment(深度对齐):联合微调整个语言模型;
Instruction Tuning(指令调优):强化指令理解与任务适应性;
部分版本还采用 RLVR(具有可验证奖励的强化学习)以提升推理质量。
数据蒸馏与合成
Lingshu 团队利用 GPT‑4o 生成长文本描述、VQA 标注与逐步推理过程(Chain-of-Thought),构造了约 1.3M 人工合成样本,并严控质量与去重。
MedEvalKit 评估体系
MedEvalKit 涵盖 20+ 数据集,包括多模态 QA(如 MMMU‑Exam、PATH-VQA)和文本 QA(MedQA-USMLE、PubMedQA 等)标准,为模型提供统一评估路径。
Lingshu 模型表现对比
Lingshu‑7B(7亿参数)
在开源低参数模型中,Lingshu‑7B 在多模态 QA 基准中取得最高平均分,尤其在 PathVQA、IU X-Ray、MedXpertQA 等任务中领先。
Lingshu‑32B(32亿参数)
较 7B 更大版本,Lingshu‑32B 在多模态问答和医学报告生成上全面领先,包括超过 GPT‑4.1 和 Claude Sonnet 4 等商业模型。
在多模态 QA 中平均表现优于 GPT‑4.1;
在文本 QA 中与闭源模型接近;
报告生成上 IU‑Xray 指标近两倍提升。
Lingshu 的应用场景
医学研究与学术探索
Lingshu 和 MedEvalKit 可作为科研者评估新模型的对标标准,支持快速对比研究结果。
临床辅助与护理
通过实现图像初筛、问答辅诊、报告批注等功能,可用于辅助医生减轻重复工作。
医学教育与培训
适用于医学学生与实习生的模拟问答、案例教学、影像讲解与培训系统。
医疗软件与SaaS集成
可接入 PACS、电子病历系统,为医疗 SaaS 产品提供 AI 模块支持。
开源价值与未来发展路径
专为医疗设计
Lingshu 专注于临床场景数据训练(如多模态医学影像、临床文本、推理流程),具医学背景适应性。
社区共建与版本优化
作为 DAMO Academy 开源项目,社区可参与贡献数据集、任务类型与工具链,形成持续演进机制。
通用-专用模型结合
未来可扩展至更大规模参数、加入神经符号推理(NeSy)和强化学习深入优化,以应对更复杂医疗场景 。
FAQ 常见问题
问:Lingshu 是免费的吗?
答:是的。Lingshu 模型(7B/32B)和 MedEvalKit 训练套件都以开源方式发布,可以免费使用。
问:如何使用 MedEvalKit?
答:Clone GitHub 仓库,安装依赖后可在命令行中执行 eval.sh 指定数据集和模型路径,即可复现评估。
问:Lingshu 支持哪些输入类型?
答:支持图像+文本输入,多轮问答、多标签输出、报告生成、诊断建议等。
问:它能替代 GPT-4 等闭源模型吗?
答:在多模态问答与报告生成任务中,Lingshu‑32B 在公开基准上已超越某些闭源模型,但闭源模型在推理、对话连贯性方面仍有部分优势。
问:是否适合临床直接使用?
答:目前适合研究和辅助使用,实际临床环境需要通过合规验证、性能检测和产品工程化之后再部署。
如何上手 Lingshu
访问官方页面下载模型权重(Lingshu‑7B/32B);
Clone
MedEvalKit仓库,部署评估脚本;准备符合 Hugging Face 格式的医学图像和文本任务输入;
运行评估,查看 Metrics 和报告;
根据应用需求,集成模型与上层 UI/服务系统。
总结与展望
Lingshu 代表着医疗多模态大模型的最新前沿,兼具医学影像理解、自然语言推理和报告生成等能力,并且作为开源项目提供统一评估框架,助推科研与产业快速进步:
支持 12+ 医学图像模态、多任务处理;
在公认基准上 outperform 多项闭源模型;
提供统一评估工具提升科研复现价值;
无偿开放模型与工具,促进社区协作。
展望未来,Lingshu 仍依赖社区迭代推动,结合更丰富数据、RL、符号系统等技术,将为智能诊断、智慧医疗提供更强支撑。如果您从事医疗 AI 研究或产品,Lingshu 是一款不可错过的开源工具。
数据统计
Lingshu访问数据评估
本站AI工具导航提供的Lingshu页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年6月24日 上午6:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。



