anonymize相关内容

在 Pandas 数据帧 python 中使用 pii 匿名化特定列

我已经加载了一个带有 json 文件的 s3 存储桶,并将其解析/展平为一个 Pandas 数据帧.现在我有一个包含 175 列的数据框,其中 4 列包含个人身份信息. 我正在寻找一种快速解决方案,将这些列(名称和地址)匿名化.我需要保留多个信息,以便同一个人的姓名或地址多次出现时具有相同的哈希值. pandas 或其他一些包中是否有可用的功能? 解决方案 使用 Categor ..
发布时间:2021-06-13 20:36:05 Python

匿名化数据/替换名称

通常,我通过使用hashlib和.apply(hash)函数来对数据进行匿名处理. 现在我正在尝试一种新方法,假设我必须遵循称为'data'的df: df = pd.DataFrame({'contributor':['eric', 'frank', 'john', 'frank', 'barbara'], 'amount payed':[10,2 ..
发布时间:2020-05-24 01:17:46 Python

匿名化nginx中的IP日志记录?

为了尊重用户的隐私,我试图在nginx日志文件中匿名化他们的IP地址。 一种方法是定义自定义日志格式,如下: log_format noip'127.0.0.1 - [$ time_local]' '“$ request” $ status $ body_bytes_sent' '“$ http_referer”“$ http_user_agent”$ request_time' ..
发布时间:2018-09-26 14:14:18 其它硬件开发

使用来自其他文件的模式替换文件中的字符串

我需要使用另一个带有模式的文件(如字符串数据库)替换许多文件中的许多字符串。例如: 文件#1: “Administrator”;“512”;“管理计算机/域的内置帐户”;“False”;“False”;“Administrator”真“,”真“,”真“,”S-1-5-21-3445027559-693823181-3401817782-500“,”用户“,”确定“,”23.1。2012 ..
发布时间:2018-05-28 19:42:23 其他开发

电子邮件匿名化类似Craigslist在C#

我正在开发一个网站,我想通过匿名他们的电子邮件地址保护买家。类似于craigslist的系统,当卖家需要联系买家时,他们应该能够发送电子邮件到匿名地址,如1425415125 @ mysite.com,然后将路由到用户的电子邮件地址。 我现在的计划是: 设置一个桶 - 所有)收件箱 为每个买方生成一个随机密钥,这些密码将是电子邮件地址的用户特定('1425415125')部分 监视 ..
发布时间:2017-08-09 00:49:48 C#/.NET

在2TB的CSV中对帐号进行匿名化

我有大约2TB的CSV,其中第一个 2列包含两个ID号。这些需要匿名化,所以数据可以用于学术研究。匿名化可以是(但不一定是)不可逆的。这些不是医疗记录,所以我不需要最好的加密算法。 问题: 标准哈希算法使得字符串真的很长,但我必须做一堆ID匹配(即“对于包含ID XXX的数据中的行的子集,...)”来处理匿名数据,所以这是不理想的。有更好的方法吗? 例如,如果我知道有大约1000 ..
发布时间:2017-02-24 22:55:00 Office

用于哈希名称,firstName和人生的日期的算法

我必须将个人的姓氏,名字和出生日期的组合保存为哈希。此哈希值稍后用于搜索具有完全相同属性的同一个人。 我的问题是,如果SHA-1是一个有意义的算法。 据我理解SHA-1,不同的人(具有不同的属性)将获得相同的哈希值。这是正确的吗? 解决方案 如果你想搜索一个只知道 可以将SHA-1存储在数据库中(或者MD5用于速度,除非你有一个四舍五入的人来抽样)。 将没有价值,因为它不存储 ..
发布时间:2017-01-16 11:55:14 开发方法