作者:京东科技 杨博
ChatGPT 才出现两个月,就已经引起了学术界的私安关注。微软成为ChatGPT母公司OpenAI的全问合作伙伴,并确认投资百亿美元 。同时,微软正计划将 OpenAI 的题及技术整合到其产品中,包括Bing搜索引擎和其他软件,以增强它们的能力。然而,据Insider报道,微软却警告其员工不要与人工智能 (AI) 聊天机器人(ChatGPT)共享敏感数据:“请不要将敏感数据发送到 OpenAI 端点,因为他们可能会用它来训练未来的隐私模型”。类似的保护,亚马逊最近也发出警告其员工提防 ChatGPT,一位亚马逊律师已敦促员工不要通过内部沟通形式与 ChatGPT 共享代码:“这很重要,因为您的输入可能会用作 ChatGPT 进一步迭代的训练数据,我们不希望它的输出包含或类似于我们的机密信息(目前我已经看到它的输出与现有机密材料非常匹配的实例)”
随着大公司对数据隐私的担忧日益增加,OpenAI 已将有关公司数据和隐私政策的问题转至ChatGPT 的常见问题解答页面 。OpenAI 的技术服务条款授予了该公司使用 ChatGPT 用户生成的所有输入和输出的权利,并规定从使用的数据中删除个人身份信息 (PII) 。
然而,在华盛顿大学教授计算语言学的私安 Emily Bender 表示,OpenAI 几乎不可能从提供给 ChatGPT 的数据中识别并删除所有个人信息。
其实,ChatGPT背后的全问LLM(大型语言模型)技术中的数据隐私保护问题早已受到关注 。其中一个风险是题及如果公开使用含有隐私敏感数据训练的模型,则有可能通过模型提取出训练数据中的隐私敏感信息 。这是隐私因为这些训练数据集可能很大(数百 GB)并且来源广泛,即使是基于公共数据集上的训练,它们有时也可能包含敏感数据,包括个人身份信息 (PII)如:姓名 、电话号码 、保护地址等,这增加了使用此类数据训练的技术模型可能会在其输出中反映其中一些私人敏感信息的可能性 。因此,重要的私安是要识别并最大程度地降低此类泄漏的风险,并制定解决未来模型问题的策略。
如果使用前缀“East Stroudsburg Stroudsburg…”提示GPT-2语言模型,它将自动完成一长串文本,其中包含特定人员的全问全名、电话号码、题及电子邮件地址和物理地址,其信息被包含在 GPT-2 的训练数据中 。
在一个由谷歌 、OpenAI 、Apple 、斯坦福 、伯克利和东北大学的联合研究项目 “ Extracting Training Data from Large Language Models ”中,研究人员已经证明,只要能够查询预训练的语言模型,就可以提取特定的片段模型记忆的训练数据。该研究展示了他们对 GPT-2 的攻击,GPT-2 是一种在公共互联网的碎片上训练的语言模型,并且能够从模型的训练数据中提取数百个逐字的文本序列 。这些提取的示例包括(公共)个人身份信息(姓名 、电话号码和电子邮件地址) 、IRC 对话 、代码和 128 位 UUID。即使上述每个序列仅包含在训练数据的一个文档中,这种攻击也是有效的。令人担忧的是,该研究发现较大的模型比较小的模型更容易受到攻击。语言模型越大,就越容易记住训练数据。例如,在一项实验中研究人员发现,15 亿参数的 GPT-2 XL 模型比 1.24 亿参数的 GPT-2 Small 模型多记忆了10倍的信息。因此,训练数据提取攻击是对最先进的大型语言模型的现实威胁。
GPT-3 使用了 1750 亿个参数,这是迄今为止用于训练模型的最大参数数量(据现有资料显示ChatGPT使用了15 亿参数) 。由于模型庞大,OpenAI社区决定不发布包含 1750 亿个参数的整个模型,而以 API 的方式公开其高级语言模型,允许用户以训练提示的形式向 GPT-3提供训练数据,模型使用该提示得出适当的结果。对于个人用户,语言模型通常将训练数据作为其在线学习功能的一部分进行存储,以使模型在运行中变得更好,这在涉及高度机密数据的用例中使用 GPT-3 时遇到了障碍。数据隐私一直是世界各地企业希望使用 GPT-3 创建特定领域应用最关心的问题 。企业的担心围绕着公开的 GPT-3 API 端点不应保留或保存作为模型微调/训练过程的任何训练数据;以及通过向公开的 API 端点提供任何类型的输入,任何第三方都不应能够提取或访问作为训练提示的任何数据 。
面对这些担忧,OpenAI 针对企业用户,允许企业与 OpenAI 签署特殊的谅解备忘录 (MoU) 和数据隐私协议 (DPA)以克服围绕数据泄露和数据隐私的担忧。幸运的是,除了制度保障,有一些技术方法可以安全地处理此类敏感数据 。这正是隐私保护计算技术(简称隐私计算)的使命——用“你看不到的数据”回答问题,该技术栈包括联邦学习 、安全多方计算、差分隐私、同态加密、可信执行环境等。
在2022年隐私联盟工作的年终总结上,中国信通院对其主导的《隐私计算白皮书(2022年)》、《隐私计算应用研究报告(2022年)》、《可信隐私计算研究报告(2022)》、《隐私计算通信应用研究报告(2022年)》 、《多方数据联合风控应用能力评估要求》标准 、《隐私计算应用 面向互联网场景的应用要求》标准、《隐私计算 面向金融场景的应用规范》标准等多项隐私保护计算成果进行发布、解读与进展介绍。作为国内隐私计算行业领军者,京东科技全程深度参与了「4大报告+3大标准」的编写研制工作,取得丰硕成果 。
《隐私计算白皮书(2022年)》由隐私计算联盟联合行业多家单位共同编制,京东科技作为主要牵头编写单位深度参与。《白皮书》涉及隐私计算概况 、技术分析 、应用分析 、行业分析 、热点问题分析以及总结展望等多方面,全面展现了行业成就及发展新态势,旨在为产业界应用隐私计算技术提供参考指导,推动隐私计算行业健康发展,在数据要素市场建设中发挥更大的价值。
《隐私计算白皮书(2022年)》封面及编写单位
《白皮书》认为,根据隐私计算技术 、应用的不同发展特点,隐私计算当前正处于产业快速增长期,即将迈入前景广阔的稳定期。未来,随着我国数据要素市场的加速建设,作为数据流通的重要创新前沿技术,以隐私计算为代表的数据安全流通技术正在成为筑牢数字安全屏障的基础设施,以促进数据要素的可信安全流通 。
近两年来,在政策驱动和市场需求同时作用下,隐私计算技术 、产业 、应用迅速发展,成为商业和资本竞争的热门赛道 。随着隐私计算技术可用性的快速提升,市场由观望正在转向落地,金融、政务 、通信、医疗、互联网等行业率先开展隐私计算应用,能源 、车联网等行业也开始探索性应用。
在此背景下,隐私计算联盟组织京东科技等成员单位共同编写了《隐私计算应用研究报告(2022年)》 。主要涉及隐私计算应用背景 、应用现状