// 01 SignGemma 是什么
SignGemma 是 Google DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。该模型能够将美国手语(ASL)实时转换为英文文本,计划于 2025 年底开源,并纳入 Gemma 模型家族,供全球开发者使用和改进。
🧠 SignGemma 是什么?
SignGemma 是一款基于多模态学习的 AI 模型,专注于将手语转换为口语或文字,主要针对美国手语(ASL)和英语。该模型通过纯视觉识别方式理解手部动作及面部表情,提供高准确率的实时翻译,旨在为听障与失聪人士提供无障碍的数字沟通工具。
🚀 如何使用 SignGemma?
目前,SignGemma 正处于测试阶段,预计于 2025 年底正式开源。开发者和研究人员可通过 Google 官方注册页面 申请参与早期测试。
未来,SignGemma 可集成到各种应用中,如:
移动应用:将手语实时转换为文字或语音,便于日常沟通。
教育平台:辅助听障学生与教师之间的互动。
医疗系统:帮助医患之间进行无障碍交流。
🔧 主要功能
实时手语翻译:支持将 ASL 手语实时转换为英文文本,准确率高达 98.7%。
多模态输入处理:结合手型识别、动作序列分析和表情理解,实现更自然的翻译效果。
开源架构:作为 Gemma 家族的一员,SignGemma 将以开源模型形式发布,方便开发者根据不同需求进行定制和优化。
社群共建:Google 邀请全球听障社群、语言学家及开发者参与早期测试,确保模型设计符合实际需求和文化语境。
⚙️ 技术原理
SignGemma 的核心技术包括:
三维语义理解框架:通过多摄像头阵列与深度传感器,构建手部骨骼的时空轨迹模型,提升手势识别的准确性。
对比学习技术:训练包含 5000 小时多模态数据的“手语-口语平行语料库”,将手语的空间表达映射为口语的线性序列。
空间语法捕捉:识别手语中独特的空间语法特性,如使用不同身体区域代表不同话题域,提升翻译的连贯性。
🎯 应用场景
教育支持:帮助教师与听障学生之间的无障碍沟通。
医疗沟通:在诊疗过程中,协助医患之间的交流,减少信息误解。
公共服务:在政府机构和企业接待流程中,自动识别手语查询内容,提升服务质量。
社交互动:在直播、会议等场景中,实现手语与口语用户之间的实时交流。
📂 项目地址
官方网站注册页面:http://goo.gle/SignGemma
预计开源时间:2025 年底,届时将纳入 Gemma 模型家族。
