我正试图解决一个问题,我需要将公司名称的多个变体映射到单个名称。例如:假设我有一家名为Super Idea Corporation Limited
的公司。
我需要解析以下内容到Super Idea Corporation Limited
- SICL
- Super Idea Corp Ltd
- 碳化硅有限公司
- 碳化硅有限公司
是否有非正则表达式的方式?我不喜欢使用正则表达式的原因是,有很多企业名称可以用许多不同的方式表示。我想要一些更灵活和适应性强的东西。
If排列的数量是已知的,最终你可以像下面这样
SICL = 'Super Idea Corporation Limited'
lookup = {'SICL': SICL, 'Super Idea Corp Ltd': SICL, 'SIC Ltd': SICL}
其他-你可以使用Levenshtein距离。查看python库。