CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS463
▸ AI 大模型 / 对话 · SITES

SignGemma SITES

Google DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年6月2日更新 2025年6月2日浏览 463

// 01 SignGemma 是什么

SignGemma 是 Google DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。该模型能够将美国手语(ASL)实时转换为英文文本,计划于 2025 年底开源,并纳入 Gemma 模型家族,供全球开发者使用和改进。


🧠 SignGemma 是什么?

SignGemma 是一款基于多模态学习的 AI 模型,专注于将手语转换为口语或文字,主要针对美国手语(ASL)和英语。该模型通过纯视觉识别方式理解手部动作及面部表情,提供高准确率的实时翻译,旨在为听障与失聪人士提供无障碍的数字沟通工具。


🚀 如何使用 SignGemma?

目前,SignGemma 正处于测试阶段,预计于 2025 年底正式开源。开发者和研究人员可通过 Google 官方注册页面 申请参与早期测试。

未来,SignGemma 可集成到各种应用中,如:

  • 移动应用将手语实时转换为文字或语音,便于日常沟通。

  • 教育平台辅助听障学生与教师之间的互动。

  • 医疗系统帮助医患之间进行无障碍交流。


🔧 主要功能

  • 实时手语翻译支持将 ASL 手语实时转换为英文文本,准确率高达 98.7%。

  • 多模态输入处理结合手型识别、动作序列分析和表情理解,实现更自然的翻译效果。

  • 开源架构作为 Gemma 家族的一员,SignGemma 将以开源模型形式发布,方便开发者根据不同需求进行定制和优化。

  • 社群共建Google 邀请全球听障社群、语言学家及开发者参与早期测试,确保模型设计符合实际需求和文化语境。


⚙️ 技术原理

SignGemma 的核心技术包括:

  • 三维语义理解框架通过多摄像头阵列与深度传感器,构建手部骨骼的时空轨迹模型,提升手势识别的准确性。

  • 对比学习技术训练包含 5000 小时多模态数据的“手语-口语平行语料库”,将手语的空间表达映射为口语的线性序列。

  • 空间语法捕捉识别手语中独特的空间语法特性,如使用不同身体区域代表不同话题域,提升翻译的连贯性。


🎯 应用场景

  • 教育支持帮助教师与听障学生之间的无障碍沟通。

  • 医疗沟通在诊疗过程中,协助医患之间的交流,减少信息误解。

  • 公共服务在政府机构和企业接待流程中,自动识别手语查询内容,提升服务质量。

  • 社交互动在直播、会议等场景中,实现手语与口语用户之间的实时交流。


📂 项目地址

  • 官方网站注册页面http://goo.gle/SignGemma

  • 预计开源时间2025 年底,届时将纳入 Gemma 模型家族。


// 04 常见 问题

SignGemma 是什么?
Google DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。
SignGemma 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、industry-education、industry-medical、多模态AI模型 等标签。
SignGemma 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
SignGemma 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部