如何使用edu.uci.ics.crawler4j.crawler.webcrawler发现所有HTML元标记

我正在完成一个研究项目，以分类所有用于描述科学和学术期刊的HTML元标签，例如都柏林核心，开放图，棱镜，引文，圣经等。

我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler，并适用于少数种子网址。

我的问题是我需要更大的种子URL列表。

我有什么选择？

我是否必须手动搜索网络查找日记网站，还是可以使用与crawler4j类似的东西来发现种子网站？

生成好种子是Web-Crawling领域的一般问题，尤其是对于 field特定任务(例如，仅查看学术期刊(。通常，有几种选择：

使用开放的Web目录(例如DMOZ，...(或期刊列表(例如，路透社列表(来收获众所周知的期刊的预分类种子点。
从理论上讲，大型搜索引擎收获了www的很大一部分。您可以尝试执行半自动化搜索预定义的查询并处理命中。但是，这可能会导致Web爬行中一些更复杂的技术(例如focused crawling(

一个选项是：

相关内容