全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210320910.2 (22)申请日 2022.03.30 (65)同一申请的已公布的文献号 申请公布号 CN 114417427 A (43)申请公布日 2022.04.29 (73)专利权人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 王志波 袁伟 庞晓艺 任奎  (74)专利代理 机构 杭州中成专利事务所有限公 司 33212 专利代理师 李亦慈 唐银益 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01)G06N 3/08(2006.01) (56)对比文件 CN 113298268 A,2021.08.24 CN 113761557 A,2021.12.07 CN 113918814 A,202 2.01.11 CN 107368752 A,2017.1 1.21 审查员 岳孟果 (54)发明名称 一种面向深度学习的数据敏感属性脱敏系 统及方法 (57)摘要 本发明公开了一种面向深度学习的数据敏 感属性脱敏系统及方法, 系统包括特征提取器和 隐私对抗训练模块; 特征提取器的输入端连接训 练数据集, 输出端连有隐私对抗训练模块; 特征 提取器由卷积神经网络组成, 是训练的核心模 块, 由数据中心训练, 训练完成后分发给个人用 户用于后续的本地端数据预处理; 隐私对抗训练 模块包含代理攻击分类器。 本方案提出隐私对抗 训练在特征空间中将隐私属性置于决策超平面, 使得攻击者无法推断, 提出条件重构模块保障除 隐私属性以外的其他信息被 保留下来, 能够有效 应用于下游任务, 同时提出联合优化策略, 对数 据隐私和数据可用性进行权衡, 使得二者能够同 时达到最优效果。 权利要求书2页 说明书9页 附图2页 CN 114417427 B 2022.08.02 CN 114417427 B 1.一种面向深度学习的数据敏感属性脱敏系统的脱敏方法, 其特征在于, 包括如下步 骤: 用户预先定义其敏感属性信息, 由数据中心训练一个用于脱 敏的特征提取器, 用户共享 数据之前, 利用的特征提取器在本地端将原始数据转换为脱敏后的特征向量, 并将所述的 脱敏后的特征向量上传, 恶意攻击者即使能访问到该特征向量无法从 中获取到任何用户方 的隐私信息, 所述的训练一个用于脱敏的特 征提取器的训练方法如下: 1) 训练数据集输入到特征提取器产生特征向量, 隐私对抗训练模块接收来自特征提取 器产生的特 征向量, 基于交叉熵损失, 产生梯度回传至特 征提取器; 所述的步骤1) 具体算法为: 1.1) 首先对用户隐私泄漏情况进行定义; 所述的步骤1.1) 具体为, 对于隐私属性 有 个可观测的类别标签, 其中 代表第 个类别标签, 对某个用户该隐私属 性的真值为 , 攻击者的目标是成功从 用户上传的特征中推断出 , 其隐私泄露程度由对 数条件分布 , 则是一个 典型的预测模型用于判别真值 的概率大小, 则对于用户上传数据, 整体隐私泄露情况衡 量如下: 其中 为用户上传的特征向量, 是用户上传的特征向量的分布, 则是一个 典型的预测模型用于判别真值 的概率大小, 代表隐私泄露期 望值, 其值越大, 隐私泄 露程度越严重; 1.2) 模拟攻击方 行为进行代理攻击分类 器优化; 所述的步骤1.2) 具体为, 在博弈论框架下, 模拟攻击方训练一个代 理攻击分类器, 通过 最大化隐私泄露期望 , 来揭露用户上传数据的隐私泄露程度, 代理攻击分 类器的表现用如下的交叉熵损失函数来描述, 所述的损失函数 是负的 : 其中 是模型参数为 的攻击分类器网络, , 则表 示该攻击分类器网络对于真值标签的预测值, 是典型的交叉熵损失, 衡量攻击分类器 网络推断效果; 1.3) 对特 征提取器进行优化防止隐私泄漏; 所述的步骤1.3) 中, 特征提取器的训练目标是最小化隐私泄露程度, 即使得攻击方的 预测成为一致分布, 为了实现该目标, 在特征 空间中将隐私属性置于决策超平 面上, 给定代 理攻击分类 器防御方用如下的损失函数描述到决策超平面距离: 其中 代表隐私属性 的 个标签中的一个, 则代表对于隐私属性 中 第 个类别的预测, 是对于隐私属性所有标签上的交叉熵误差的期望值, 在对 抗学习权 利 要 求 书 1/2 页 2 CN 114417427 B 2过程中, 特征提取器与代理攻击分类器交替优化, 最终收敛使得攻击者在推 断隐私的过程 只能以随即猜测的方式进行; 2) 训练数据集输入到特征提取器与隐私编码模型, 分别产生特征向量与隐私编码向 量, 条件重构模块中的条件重构网络接收来自特征提取器以及隐私编 码模型产生的特征向 量, 计算重构损失, 回传 梯度至特 征提取器; 所述的步骤2) 如下算法流 程构成: 2.1).获得隐私编码向量作为条件重构网络 输入; 2.2).度量重构损失, 产生回传 梯度; 所述的步骤2.1) 具体为, 隐私编码模型产生的隐私编码向量的精确程度利用辅助 预测 模型由以下损失函数来衡量: 其中 为隐私编码模型, 参数为 , 为辅助预测模 型, 参数为 , 代 表对于隐私信息的预测置信度, 用来衡量隐私编码模型 产生的隐私特征向量 是否完整保留了隐私信息, 最终由 产生隐私编码向量 ; 所述的步骤2.2) 具体为, 采用  Mean Square error作为度量函数, 利用欧式距离上的 期望值, 即 , 作为重构误差值: 其 中 代 表 由 和 拼 接 所 产 生 的 重 构 数 据 , , MSE均方误差是用于衡量原始数据 以及由 重 构数据 间信息相似度的函数; 3) 通过联合学习策略对步骤1) 与步骤2) 中产生的梯度回传信息进行权衡, 引入超参 数, 提高步骤1) 中隐私对抗训练模块的权重则提升隐私保护效果, 提升步骤2) 中条件重构 网络梯度则提升数据可用性效果; 所述的步骤3) 具体为, 设计了联合学习策略, 引入超参数 , 进行联合建模训练, 用于权衡数据隐私与数据可用性, 训练过程中关键的特征提取器 交 替参与进 行条件重构模块与隐私对抗训练模块训练, 用于训练特征提取网络的最 终优化目 标如下: 在联合学习模型中, 首先在不进行对抗学习和条件重构学习的情况下, 预训练特征提 取器与代理攻击分类器模型使得攻击者在最开始 时能够对隐私属 性的判别达到一个较好 的水平; 然后, 在随后的每一个训练批次中, 交替执行隐私对抗训练模块和条件重构模块, 同时使用权衡超参数 来更新特 征提取器的参数 。权 利 要 求 书 2/2 页 3 CN 114417427 B 3

PDF文档 专利 一种面向深度学习的数据敏感属性脱敏系统及方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向深度学习的数据敏感属性脱敏系统及方法 第 1 页 专利 一种面向深度学习的数据敏感属性脱敏系统及方法 第 2 页 专利 一种面向深度学习的数据敏感属性脱敏系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。