在数据库后端不一致的情况下跨数据库迁移-输入



我正在将一些数据从一个数据库迁移到另一个数据库,这是意外地出现在测试数据库中的生产数据。

它是典型的以单个User表为中心的关系数据库。

需要考虑的事项

  • 几乎任何表中都可能存在生产测试之间的重复行
  • 测试中任何与用户相关的表中的任何列都可能错过生产的内容,或者由于用户重新注册而包含更新的信息
  • 所有表都包含createdupdated

我一直通过SOAP层连接到数据库,因为这是一种"简单"的方式。但是,我确实可以对运行这些数据库的计算机进行管理访问。

你有什么方法、建议和建议可以帮助我实现这一目标吗?也许是类似于内容迁移的东西——最佳实践(PDF),任何东西,真的。

1.首先备份所有数据。说这话从来都不伤人!

2.建立一个合理的样本量,即您愿意详细查看多少记录,部分基于您的时间/金钱和更正的准确数据的价值。

3.创建一个列表,比如在这些记录的电子表格中。

4.如果可以,可以(从外部)确定哪些是真实的,可以使用电子邮件地址或其他字段与其他数据进行比较。

5.寻找图案。是否有任何单独的字段:-id、date、user_id等,看起来似乎可以帮助您知道哪些记录是好的?查找值模式、低/高范围、重复的"样本"数据(许多记录中一列的值相同)、没有时间的日期、具有孤立外部ID的记录,您可以检查的内容数量惊人!

6.确定你的最终容忍度-你在寻找100%吗?或者99.94%的固定率对用户来说是可以的(好吧,那就可以接受了!)?

7.看看你提到的那些重复项。对于这些记录,你能应用任何规则,如"旧记录"、"新记录"或低ID号来至少消除它们吗?

我希望这能有所帮助!

最新更新