我有一个大的数据帧,有371个唯一的分类条目,但是有些条目是相似的,在某些情况下,我想合并某些可能已经分开的类别,例如我有3个类别,我知道:
3 d
3 d_platformer
3 d_vision
我想把这些组合在3d的一般范畴下。我觉得这在小范围内应该是可行的,但我想把它扩大到所有类别。问题是我不知道所有类别的名称。总之,完整的问题是:
如何搜索相似的分类名称,然后用一个组名称替换所有相似的名称,而不单独搜索?
正则表达式有帮助吗?
df.col = df.col.str.replace(r'3d.*', '3d')
如果你正在寻找更多类似语义的身份,像Gensim这样的NLP库可以提供字符串相似度计算方法:
https://betterprogramming.pub/introduction-to-gensim-calculating-text-similarity-9e8b55de342d
您可以尝试使用您的类别名称作为语料库。