过滤谷歌查询结果

我正在wikixml转储上使用lucene为wikipedia文章编写一个搜索引擎，当我在查询中给出"site:en.wikipedia.org"时，我想计算该引擎与特定查询的谷歌wiki结果相比的准确性。我想为多个查询做这件事，所以我手动获得谷歌搜索结果URL。我有谷歌API来使用机器人搜索谷歌，但问题是我想去掉某些类型的结果，比如"/类别："/icon:"/file:"/photo:"以及用户页面。

但我没有找到一种方便的方法来做到这一点，除了使用一种迭代方法来发布查询，获得n个结果，然后使用正则表达式过滤掉，然后检索剩余的（n-x）结果等等。当我这样做的时候，谷歌一直在屏蔽我。

有没有一种智能的方法可以用Java获得我想要的谷歌结果？

提前感谢各位。

您可以尝试从谷歌结果中排除这些页面，如下所示：

活人网站：en.wikipedia.org-inurl:category-inurl:category_talk-inurl:file-inurl:file_talk-inurt:user-inurl:user_talk

相关内容

最新更新

热门标签：