我有以下困境。我已经在数据库中存储了信息,我将添加到其中。我有以下字段:
Title
Location
Description
我希望避免将相同的内容重新添加到数据库中。然而,当前设置似乎发生了什么,我检查它们是否完全相同,但有时可以输出一个字符,它会将其作为两个不同的值接受。
有没有可能建立某种"捏造因素",以允许两者之间的微小差异。我正在寻找更通用的技术,但如果它有区别的话,我会用python编码。
这是典型的"脏数据"问题。目标是在数据库中只有干净的数据,并识别重复的数据。
该技术取决于您的数据,是否可以轻松清理,或者是否需要一些编程逻辑。例如,姓氏"van Rossum"与"Vanrossum"相同吗?还是"Håstad"与"Hasted"相同?最后一次实时股价是真的吗,还是应该放弃的飙升?
除了应用于每个字段的规则列表之外,可能没有简单的答案。可能没有一个"伪造因素"可以修复所有数据。
您的最佳方法应该与标题、位置和描述的已知"良好"值相关。也许你的位置定义明确,你可以很容易地检测到错误的位置——然后你需要决定正确的位置应该是什么
常见的做法包括"剔除"不符合规则的数据,以便人类做出决定,或者简单地将其标记为脏数据,以便在搜索结果中出现时应用心理模糊因素。