如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

我正在完成一个研究项目，以编目用于描述科学和学术期刊的所有HTML元标记，例如，都柏林核心，开放图形，棱镜，引文，biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

我使用edu.uci.ics.crawler4j.crawler.WebCrawler并且它有少量种子URL的工作。

我的问题是我需要一个更大的种子URL列表。

我有什么选择？

我必须手动搜索网络来寻找期刊网站，还是可以使用类似于crawler4j的内容来发现种子网站？

2017-05-06 Hector

生成良好种子是Web-Crawling字段的一个常见问题，特别是字段专用的任务（例如只看学术期刊）。在一般情况下，有几个选项：

使用开放的Web目录（如DMOZ，...）或期刊名录（例如Reuters List）收获预归类种子点知名期刊。
理论上，大型搜索引擎已经占据了WWW的很大一部分。您可以尝试执行半自动搜索预定义的查询并处理匹配。然而，这可能导致在一些更复杂的技术，网络爬行（如focused crawling）

的选择是：

2017-05-12 08:49:50 rzo

回答