如何使用edu.uci.ics.crawler4j.crawler.webcrawler发现所有HTML元标记



我正在完成一个研究项目,以分类所有用于描述科学和学术期刊的HTML元标签,例如都柏林核心,开放图,棱镜,引文,圣经等。

我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler,并适用于少数种子网址。

我的问题是我需要更大的种子URL列表。

我有什么选择?

我是否必须手动搜索网络查找日记网站,还是可以使用与crawler4j类似的东西来发现种子网站?

生成好种子是Web-Crawling领域的一般问题,尤其是对于 field特定任务(例如,仅查看学术期刊(。通常,有几种选择:

  • 使用开放的Web目录(例如DMOZ,...(或期刊列表(例如,路透社列表(来收获众所周知的期刊的预分类种子点。

  • 从理论上讲,大型搜索引擎收获了www的很大一部分。您可以尝试执行半自动化搜索预定义的查询并处理命中。但是,这可能会导致Web爬行中一些更复杂的技术(例如focused crawling(

一个选项是:

  • 使用crawler4j从路透社收集期刊名称,以进行您喜欢调查的领域。
  • 为此,您需要查看日记列表,例如商业期刊列表。期刊名称始终在h4标签中,可以轻松提取。
  • 提取名称后,您只需找出相应的URL即可。为此,您可以使用上面的搜索引擎方法。有了很高的可能性,第一个命中应该是该期刊的网页。

相关内容

  • 没有找到相关文章

最新更新