如何查找和修复地址错误?



我有一个大型数据集(65,000 个观测值(,其中有一个包含多个错误的地址列。 我观察到的一些错误是:第 10 大道、第十大道或 AVE 和大道等。有些甚至只是在单词之间有一个额外的空格。显然还有更多错误,但由于数据集太大,我自己无法找到所有错误。

所以我想知道是否有我可以编写的代码会自动为我识别我的错误? 然后我可以写什么代码来修复它们?

是的,你可以用 gsub(( 做到这一点

从你给出的例子

example <- example %>%
#put all items in consistent case
mutate(address = str_to_title(address),
#fix Tenth to 10th
address = gsub('Tenth','10th',address),
#fix Ave to Avenue
address = gsub('Ave','Avenue',address))

最新更新