使用fuzzy重新标记pandas数据框架中的分类值



我有一个大的数据帧,有371个唯一的分类条目,但是有些条目是相似的,在某些情况下,我想合并某些可能已经分开的类别,例如我有3个类别,我知道:

3 d

3 d_platformer

3 d_vision

我想把这些组合在3d的一般范畴下。我觉得这在小范围内应该是可行的,但我想把它扩大到所有类别。问题是我不知道所有类别的名称。总之,完整的问题是:

如何搜索相似的分类名称,然后用一个组名称替换所有相似的名称,而不单独搜索?

正则表达式有帮助吗?

df.col = df.col.str.replace(r'3d.*', '3d')

如果你正在寻找更多类似语义的身份,像Gensim这样的NLP库可以提供字符串相似度计算方法:

https://betterprogramming.pub/introduction-to-gensim-calculating-text-similarity-9e8b55de342d

您可以尝试使用您的类别名称作为语料库。

相关内容

  • 没有找到相关文章

最新更新