使用传统和机器学习方法进行数据规范化



我正在尝试进行数据规范化并填充正确的邮政编码,城市和州。数据包含邮政编码,城市,州和地址字段信息以及许多错误信息,例如键入错误等。按照方法,我尝试了:

  1. 从正确的邮政编码、城市和州信息中查找并进行规范化,其中仅涵盖 40-50% 的正确规范化

  2. 标记地址并应用大量条件语句以获得正确的邮政编码、城市和州以及查找信息。地址字段包含许多丰富的信息,这些信息对于创建查找和数据规范化非常有用。这种方法仅涵盖 50-60% 的正确归一化。

数据

包含大量历史信息,新数据不断涌现。这是执行数据规范化的迭代过程。有没有更好的方法使用机器学习技术进行数据规范化,即数据从历史数据中学习自身并进行规范化?

这是一个非常笼统的问题,所以我给出一个笼统的答案。

如果没有其他帮助,应该使用机器学习。最简单的解决方案是:如果你有足够的数据(你可以牺牲其中的一些),数据的质量仍然相同,尝试基于一些正则表达式进行过滤 - 它既快速又直接

使用机器学习,您将在训练上浪费一些时间,而且准确性也无法保证。但是,当然,在某些情况下,ML可以提供很多帮助。

最新更新