在SOLR中围绕给定距离的位置索引维基百科文章



在Solr服务器中索引维基百科文章(包含地理位置lon/lat)的最佳方式是什么?

例如,我有一个给定的lon/lat位置,并想索引60公里左右的所有维基百科文章。

我可以下载整个Wikipedia Dump,并编写一个应用程序,尝试在给定的点距离内获取xml中的所有数据。但是转储大约是40GB,这可能需要很长时间。我有以下条件:我想让数据保持最新(它们应该每48小时更新一次)。是否有部分维基转储可用(例如适用于每个国家/地区)或API/应用程序可用于此情况?

特别:你在评论中提到的附近曾经由Solr提供动力,但现在使用Elasticsearch。提供地理空间搜索的扩展GeoData也支持基于MySQL的搜索,这对小型数据集更实用。如果你对Solr特别感兴趣,你可以看看我杀死它之前是怎么做的,因为Elasticsearch好多了。

相关内容

最新更新