2017-05-06 99 views
0

我正在完成一个研究项目,以编目用于描述科学和学术期刊的所有HTML元标记,例如,都柏林核心,开放图形,棱镜,引文,biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

我使用edu.uci.ics.crawler4j.crawler.WebCrawler并且它有少量种子URL的工作。

我的问题是我需要一个更大的种子URL列表。

我有什么选择?

我必须手动搜索网络来寻找期刊网站,还是可以使用类似于crawler4j的内容来发现种子网站?

回答

3

生成良好种子是Web-Crawling字段的一个常见问题,特别是字段专用的任务(例如只看学术期刊)。在一般情况下,有几个选项:

  • 使用开放的Web目录(如DMOZ,...)或期刊名录(例如Reuters List)收获预归类种子点知名期刊。

  • 理论上,大型搜索引擎已经占据了WWW的很大一部分。您可以尝试执行半自动搜索预定义的查询并处理匹配。然而,这可能导致在一些更复杂的技术,网络爬行(如focused crawling

的选择是:

  • 使用crawler4jReuters收集杂志的名称为自己喜欢的领域去弄清楚。
  • 为此,您需要查看日记列表,例如business journal list。日记名称始终位于h4标记中,可以轻松提取这些标记。
  • 提取名称后,您只需找出相应的URL即可。为此,您可以使用上面的搜索引擎方法。第一次打击的可能性很大,应该是杂志的网页。
相关问题