我正在完成一个研究项目,以分类所有用于描述科学和学术期刊的HTML元标签,例如都柏林核心,开放图,棱镜,引文,圣经等。
我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler
,并适用于少数种子网址。
我的问题是我需要更大的种子URL列表。
我有什么选择?
我是否必须手动搜索网络查找日记网站,还是可以使用与crawler4j
类似的东西来发现种子网站?
生成好种子是Web-Crawling
领域的一般问题,尤其是对于 field特定任务(例如,仅查看学术期刊(。通常,有几种选择:
-
使用开放的Web目录(例如DMOZ,...(或期刊列表(例如,路透社列表(来收获众所周知的期刊的预分类种子点。
-
从理论上讲,大型搜索引擎收获了www的很大一部分。您可以尝试执行半自动化搜索预定义的查询并处理命中。但是,这可能会导致Web爬行中一些更复杂的技术(例如
focused crawling
(
一个选项是:
- 使用
crawler4j
从路透社收集期刊名称,以进行您喜欢调查的领域。 - 为此,您需要查看日记列表,例如商业期刊列表。期刊名称始终在
h4
标签中,可以轻松提取。 - 提取名称后,您只需找出相应的URL即可。为此,您可以使用上面的搜索引擎方法。有了很高的可能性,第一个命中应该是该期刊的网页。