我正在将大量RSS提要中的文章收集到MySQL数据库中(只有来自实际提要的标题和链接),我想确保在重新检查提要时不会输入同一篇文章两次。我预计在表中存储多达200000个条目。
哪一种是检查重复的最佳方法:
- 使URL成为数据库中的唯一字段
- 为每一篇文章创建一个新的唯一标识符(如SHA1 URL和/或标题)
- 还有别的吗
编辑:感谢大家确认#1。
UNIQUE
密钥就是为此而设计的。
如果您想批量插入,但可能有重复错误,请使用INSERT IGNORE
在您的3个选项中,1是唯一一个不需要做额外工作的可行选项。
选项2&3都需要做更多。坚持UNIQUE
插入。