0
我正在完成一个研究项目,以编目用于描述科学和学术期刊的所有HTML元标记,例如,都柏林核心,开放图形,棱镜,引文,biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记
我使用edu.uci.ics.crawler4j.crawler.WebCrawler
并且它有少量种子URL的工作。
我的问题是我需要一个更大的种子URL列表。
我有什么选择?
我必须手动搜索网络来寻找期刊网站,还是可以使用类似于crawler4j
的内容来发现种子网站?