存储来自互联网的文章以供将来搜索的最佳方式



每天我都会访问该网站并将您的所有文本内容保存到某个数据库中。

我要保存的站点之一是 505 kb,有什么方法可以通过减小大小来将其保存在数据库中而不会丢失数据?

保存的信息必须可用于搜索关键字,以便我可以找到以前日期保存的内容。

使用 nosql 银行会是更好的方法吗?

你所描述的内容可能非常适合Elasticsearch,它可以用作分布式文本搜索引擎。

您还询问了"在不丢失数据的情况下减小大小"的问题? 这是无损压缩,它对内存非常友好,但可能会抑制您实际执行搜索的能力,因为这可能需要先解压缩每个字符串,这本身就是一个 O(N( 操作,可以有效地破坏要点。

您还提到了NoSQL存储与关系数据库。 这是正确的想法,但仍然可能不完全匹配。 与NoSQL存储相关的是Redis,一种内存中的键值存储。 但是,Redis 通常用于查找,即"我给你一个 URL;你把与该URL关联的缓存页面HTML还给我。 这并不能完全描述您的案例及其特殊性,这可能不适合 Redis 模型。 所以再一次,Elasticsearch可能是一个很好的起点。

最新更新