AWS RDS中数据的数据屏蔽



我有一个AWS RDS(AuroraDB),我想屏蔽数据库上的数据。亚马逊是否提供数据屏蔽服务?

我见过RDS加密,但我正在寻找数据屏蔽,因为数据库包含敏感数据。所以我想知道他们是否为数据屏蔽提供了任何服务,或者是否有任何其他工具可以用来屏蔽数据并手动将其添加到数据库中?

可以用于数据屏蔽的工具列表(如果有的话)最适合我的情况。因为我需要屏蔽这些数据进行测试,因为原始数据库包含敏感信息,如PII(个人身份信息)。我还必须将这些数据传输给我的同事,所以我认为数据屏蔽是一个重要因素。

谢谢。

这是一个非常棒的问题,我认为很多人都应该注意你主动保护企业最有价值资产的方法,尤其是当你与同事共享数据时。不可否认,让人们只看到他们需要看到的东西是减少攻击面的好方法。标准的网络安全方法已经不够了,无数的攻击/人们丢失了笔记本电脑/带有敏感数据的usbs就证明了这一点。我们毕竟只是人。随着《通用数据保护条例》将于明年5月生效,任何在欧盟拥有客户的公司都必须通过设计和屏蔽等匿名技术来证明隐私。

注意:我对这个答案有既得利益,因为我正在为你所说的这样一项服务工作。

我们发现,根据您的确切用例,数据集和内容的大小将取决于您的屏蔽方法。如果数据集的字段最少,并且知道PII在哪里,则可以运行标准查询来替换敏感值。即John->XXXX。如果你想保持一些人类可读性,有一些库,比如Python的Faker,可以生成基于随机区域设置的PII,你可以用它来替换敏感值。(PHP Faker、Perl Faker和Ruby Faker也存在)。

免责声明:直接屏蔽并不能保证完全的隐私。想象一下,有人通过与带有时间戳的IMDB数据交叉引用,从蒙面的Netflix数据集中识别个人,或者《卫报》记者从蒙面ISP数据中识别法官的色情偏好。

随着字段/表中数据集的增加,屏蔽确实会变得乏味,而且您可能希望为不同的同事设置不同级别的访问权限。即数据科学获得轻度匿名数据,营销获得重度匿名数据。自由文本字段中的PII很烦人,通常了解世界上有哪些数据可以供攻击者用来交叉引用是一项艰巨的任务。

我正在开发的服务旨在通过使用NLP技术和对匿名数学的良好理解来自动化流程,从而缓解所有这些问题。我们正在将其捆绑到一个网络服务中,并渴望在AWS市场上推出。所以我很想听到更多关于你的用例的信息,如果你想尽早访问,我们目前处于私人测试阶段,请告诉我。

如果您使用CSV或JSON文件导出或导入数据(即与同事共享),则可以使用FileMasker。它可以作为AWS Lamdbda函数在S3上读取/写入CSV/JSON文件来运行。它仍在开发中,但如果你现在想尝试测试版,请联系我。免责声明:我为FileMasker的开发者DataVeil工作。

最新更新