CURRENTVIEWING
CH最近收录AI
VIEWS10
▸ 最近收录AI · SITES

OpenAI Privacy Filter SITES

OpenAI 在 2026 年 4 月发布的开放权重隐私过滤模型。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2026年6月8日更新 2026年6月8日浏览 10

// 01 OpenAI Privacy Filter 是什么

OpenAI 发布的本地 PII 脱敏模型

OpenAI Privacy Filter 是 OpenAI 在 2026 年 4 月发布的开放权重隐私过滤模型,面向文本中的个人身份信息检测与遮盖。它不是聊天模型,也不是面向普通用户的网页工具,而是给开发者、数据平台团队、安全团队和 AI 应用工程师使用的基础设施模型。OpenAI 官方说明中提到,该模型可在本地环境运行,目标是在训练、索引、日志记录、审核和数据清洗流程中建立更强的隐私保护屏障。

它解决的是一个很现实的问题:现代 AI 系统会处理大量非结构化文本,其中可能混有姓名、邮箱、电话号码、账号、地址、API Key、密码等敏感内容。传统规则匹配可以识别格式明确的邮箱或手机号,但对上下文相关、格式混乱或边界模糊的私人信息往往不够可靠。OpenAI Privacy Filter 通过上下文感知的 token 分类方式,在单次扫描中标注敏感片段,适合高吞吐量的数据脱敏工作流。

核心能力

  • 模型类型为双向 token 分类模型,采用 span decoding 输出连续隐私片段,而不是逐字生成文本。
  • 模型总参数量为 15 亿,活跃参数量为 5000 万,官方称可在笔记本电脑或浏览器环境中运行。
  • 支持最长 128000 token 上下文,可用于长文档、日志、聊天记录和混合格式文本。
  • 可识别 8 类隐私片段,包括 private_person、private_address、private_email、private_phone、private_url、private_date、account_number 和 secret。
  • 在 PII-Masking-300k 基准上,官方报告 F1 为 96%;修正标注问题后的版本为 97.43%。
  • 支持运行时调整精确率与召回率取舍,也支持针对特定数据分布进行微调。
  • GitHub 仓库采用 Apache-2.0 License,并提供本地代码、CLI、评测和微调相关文件。

如何使用

OpenAI Privacy Filter 的真实使用形态是开源模型和开发者工具。用户可以从 Hugging Face 获取模型权重,也可以从 GitHub 克隆 openai/privacy-filter 仓库,在本地安装后通过 CLI 或 Python 调用。Hugging Face 模型页提供 Transformers 和 Transformers.js 示例,适合 Python 后端、浏览器端或本地应用集成。

  1. 从 GitHub 克隆 openai/privacy-filter 仓库,或直接在 Hugging Face 使用 openai/privacy-filter 模型。
  2. 本地安装项目依赖,GitHub README 给出的方式是 pip install -e .。
  3. 使用 opf 命令对文本或文件进行一次性脱敏,也可以通过管道接入日志清洗流程。
  4. 在 Python 中使用 Transformers 的 token-classification pipeline 调用模型。
  5. 如需浏览器端部署,可使用 Transformers.js 并结合 WebGPU 运行。
  6. 进入生产环境前,需要根据业务数据测试召回率、误杀率和输出策略。

典型使用场景

在 AI 训练数据清洗中,团队可以先用 Privacy Filter 扫描原始文本,把个人信息和软件密钥遮盖后再进入训练或微调流程,降低模型记住私人数据的风险。

在企业日志与客服记录处理中,它可以用于自动识别用户姓名、邮箱、电话、账号或密钥,避免敏感信息进入分析平台、检索系统或外包标注流程。

在 RAG 和知识库索引场景中,Privacy Filter 可以作为入库前的脱敏层,把文档中的个人标识先处理掉,再交给向量库或搜索系统建立索引。

与同类工具的差异

它与正则表达式或传统 PII 规则库的差异在于上下文理解能力。规则工具擅长处理格式固定的数据,但对“某句话里这个名字是否属于私人信息”“这段字符串是否像 API Key”这类场景不够灵活。Privacy Filter 更适合处理嘈杂、非结构化和长上下文文本。

它与通用大模型做脱敏的差异在于成本和可控性。通用模型可以理解复杂语义,但通常更慢、更贵,也不一定适合把原始敏感数据发到外部 API。Privacy Filter 是专门的小模型,可本地部署,适合批量处理和工程流水线。

价格与使用成本

OpenAI Privacy Filter 本身以开放权重形式发布,采用 Apache-2.0 License,公开信息中没有商业 API 定价。实际成本主要来自部署环境、推理资源、业务适配和人工评估。对于高频清洗日志、训练语料或知识库文档的团队,它的价值在于减少外部 API 依赖和批量处理成本;如果只是偶尔手动遮盖少量文本,使用它会显得偏重。

真实优势与局限

OpenAI Privacy Filter 的优势在于任务边界清晰、上下文感知强、支持长文本、本地运行且可微调。它适合被放在 AI 数据管道的前置位置,作为隐私保护和数据最小化的一层工程组件。

局限也需要明确。OpenAI 官方强调,它不是匿名化工具、合规认证或高风险场景的唯一安全保证。模型行为受训练标签体系限制,可能漏掉罕见标识,也可能在上下文不足时过度或不足脱敏。法律、医疗、金融等高敏场景仍需要人工审核、组织级隐私政策和领域内评测。它更适合作为隐私工程体系的一部分,而不是单独承担全部合规责任。

// 04 常见 问题

OpenAI Privacy Filter 是什么?
OpenAI 在 2026 年 4 月发布的开放权重隐私过滤模型。
OpenAI Privacy Filter 适合哪些场景?
可优先参考它所属的 最近收录AI、AI 大模型 / 对话 分类,以及 开放权重隐私过滤模型 等标签。
OpenAI Privacy Filter 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
OpenAI Privacy Filter 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 最近收录AI 全部