我在这里有点力不从心了——希望这是可以发布的。我有一个大约1000个标题的列表。我在试着识别那些内容相同但措辞不同的标题。
希望找到最简单的方法,看看是否有现成的工具,找到相关的教程等。我一直在谷歌上搜索,但没有找到任何关于这个的具体内容,可能是因为我找不到描述它的词汇。(在一个理想的世界里,有一些在线工具,我不需要编写代码,但如果有必要,我会尝试编写代码。)谢谢。
您可以解决这个问题的一种方法,至少是粗略的近似:
- 计算每个单词在整个列表中出现的总次数。
- 将词根相同的单词组合在一起。例如:walks, walking, walked。把字数加起来。
- 按最常见的单词顺序对这个频率列表进行排序。
- 按频次列表中单词组1出现次数最多的标题排序。(对于至少包含它一次的标题集)
- 对频率列表中的词组2重复(4),以此类推至频率列表末尾。
- 现在,您将从每个单词组中获得相关标题的简短列表。浏览其中的一些,看看是否有一些有意义的相似的。