使用传统和机器学习方法进行数据规范化

我正在尝试进行数据规范化并填充正确的邮政编码，城市和州。数据包含邮政编码，城市，州和地址字段信息以及许多错误信息，例如键入错误等。按照方法，我尝试了：

从正确的邮政编码、城市和州信息中查找并进行规范化，其中仅涵盖 40-50% 的正确规范化
标记地址并应用大量条件语句以获得正确的邮政编码、城市和州以及查找信息。地址字段包含许多丰富的信息，这些信息对于创建查找和数据规范化非常有用。这种方法仅涵盖 50-60% 的正确归一化。

数据

包含大量历史信息，新数据不断涌现。这是执行数据规范化的迭代过程。有没有更好的方法使用机器学习技术进行数据规范化，即数据从历史数据中学习自身并进行规范化？

这是一个非常笼统的问题，所以我给出一个笼统的答案。

如果没有其他帮助，应该使用机器学习。最简单的解决方案是：如果你有足够的数据（你可以牺牲其中的一些），数据的质量仍然相同，尝试基于一些正则表达式进行过滤 - 它既快速又直接

使用机器学习，您将在训练上浪费一些时间，而且准确性也无法保证。但是，当然，在某些情况下，ML可以提供很多帮助。

相关内容