为了一件事,用许多不同的单词清理数据集



目前我有一个成分数据集。问题是它不是很干净,因为它包含了同一事物的许多不同名称。以下是几个例子:

Mehl=Weizenmehl,Mehl360型

Eier=Eier,Ei(er(,Ei

我想也许删除那些括号,并发表许多if语句,这些语句寻找不同的东西,比如";Mehl";但在那里,我也必须寻找类似";Dinkel";因为

丁克梅尔!=Mehl

我可以这样做,但这将是非常费力的,因为这是一个很大的数据集。有没有其他方法,也许是用字典之类的?我希望你能帮我谢谢!

Frederick!

是的,你可以使用熊猫地图的方法。首先,我建议清除特殊字符(!"#$%&/(,并使用Eier、Ei、Mehl、Tomaten的地图。。。。

我附上地图的文件:df Panda 中的地图

VG

最新更新