我正在wikixml转储上使用lucene为wikipedia文章编写一个搜索引擎,当我在查询中给出"site:en.wikipedia.org"时,我想计算该引擎与特定查询的谷歌wiki结果相比的准确性。我想为多个查询做这件事,所以我手动获得谷歌搜索结果URL。我有谷歌API来使用机器人搜索谷歌,但问题是我想去掉某些类型的结果,比如"/类别:"/icon:"/file:"/photo:"以及用户页面。
但我没有找到一种方便的方法来做到这一点,除了使用一种迭代方法来发布查询,获得n个结果,然后使用正则表达式过滤掉,然后检索剩余的(n-x)结果等等。当我这样做的时候,谷歌一直在屏蔽我。
有没有一种智能的方法可以用Java获得我想要的谷歌结果?
提前感谢各位。
您可以尝试从谷歌结果中排除这些页面,如下所示:
- 活人网站:en.wikipedia.org-inurl:category-inurl:category_talk-inurl:file-inurl:file_talk-inurt:user-inurl:user_talk