比较两条信息以找出相似之处

我有以下困境。我已经在数据库中存储了信息，我将添加到其中。我有以下字段：

Title
Location
Description

我希望避免将相同的内容重新添加到数据库中。然而，当前设置似乎发生了什么，我检查它们是否完全相同，但有时可以输出一个字符，它会将其作为两个不同的值接受。

有没有可能建立某种"捏造因素"，以允许两者之间的微小差异。我正在寻找更通用的技术，但如果它有区别的话，我会用python编码。

这是典型的"脏数据"问题。目标是在数据库中只有干净的数据，并识别重复的数据。

该技术取决于您的数据，是否可以轻松清理，或者是否需要一些编程逻辑。例如，姓氏"van Rossum"与"Vanrossum"相同吗？还是"Håstad"与"Hasted"相同？最后一次实时股价是真的吗，还是应该放弃的飙升？

除了应用于每个字段的规则列表之外，可能没有简单的答案。可能没有一个"伪造因素"可以修复所有数据。

您的最佳方法应该与标题、位置和描述的已知"良好"值相关。也许你的位置定义明确，你可以很容易地检测到错误的位置——然后你需要决定正确的位置应该是什么

常见的做法包括"剔除"不符合规则的数据，以便人类做出决定，或者简单地将其标记为脏数据，以便在搜索结果中出现时应用心理模糊因素。

相关内容